Fugu-MT 論文翻訳(概要): Estimating Fr\'echet bounds for validating programmatic weak supervision

論文の概要: Estimating Fr\'echet bounds for validating programmatic weak supervision

arxiv url: http://arxiv.org/abs/2312.04601v1
Date: Thu, 7 Dec 2023 07:15:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 17:43:01.073565
Title: Estimating Fr\'echet bounds for validating programmatic weak supervision
Title（参考訳）: プログラム的弱監督を検証するためのfr\'echet境界の推定
Authors: Felipe Maia Polo, Mikhail Yurochkin, Moulinath Banerjee, Subha Maity, Yuekai Sun
Abstract要約: 我々は、ある変数が連続的に評価される(おそらく高次元の)分布クラス上のFr'echeの境界を推定する手法を開発する。プログラム弱監督(PWS)を訓練した機械学習(ML)モデルの性能を評価することで,アルゴリズムの有用性を実証する。
参考スコア（独自算出の注目度）: 50.13475056199486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We develop methods for estimating Fr\'echet bounds on (possibly high-dimensional) distribution classes in which some variables are continuous-valued. We establish the statistical correctness of the computed bounds under uncertainty in the marginal constraints and demonstrate the usefulness of our algorithms by evaluating the performance of machine learning (ML) models trained with programmatic weak supervision (PWS). PWS is a framework for principled learning from weak supervision inputs (e.g., crowdsourced labels, knowledge bases, pre-trained models on related tasks, etc), and it has achieved remarkable success in many areas of science and engineering. Unfortunately, it is generally difficult to validate the performance of ML models trained with PWS due to the absence of labeled data. Our algorithms address this issue by estimating sharp lower and upper bounds for performance metrics such as accuracy/recall/precision/F1 score.
Abstract（参考訳）: 我々は、ある変数が連続評価される(おそらく高次元)分布クラス上のFr\echet境界を推定する方法を開発する。プログラム弱監督(PWS)を用いて訓練された機械学習(ML)モデルの性能を評価することにより,限界制約の不確実性の下で計算された境界の統計的正当性を確立し,アルゴリズムの有用性を示す。 PWSは、弱い監督インプット(例えば、クラウドソースされたラベル、知識ベース、関連するタスクに関する事前訓練されたモデルなど)からの原則的学習のフレームワークであり、科学と工学の多くの分野で大きな成功を収めた。残念ながら、ラベル付きデータがないため、PWSでトレーニングされたMLモデルの性能を検証することは一般的に困難である。我々のアルゴリズムは、精度/リコール/精度/F1スコアなどのパフォーマンス指標の急激な下限と上限を推定することでこの問題に対処する。

関連論文リスト

KAIROS: Scalable Model-Agnostic Data Valuation [8.766103946679435]
KAIROSはスケーラブルでモデルに依存しない評価フレームワークで、各例に分散影響スコアを割り当てる。 KAIROSは、最先端のモデル-、Shapley-、Wassersteinベースのベースラインを精度とランタイムの両方で一貫して上回っている。
論文参考訳（メタデータ） (2025-06-30T12:44:28Z)
Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach [1.3731623617634434]
既存の未学習指標の限界を同定し,共形予測にインスパイアされた評価指標を提案する。我々のメトリクスは、予測セットから基底真理ラベルが除外される範囲を効果的に捉えることができる。本稿では,Carini & Wagner 対逆攻撃損失に対する共形予測の洞察を統合するアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-31T18:58:43Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Group Robust Classification Without Any Group Information [5.053622900542495]
この研究は、グループロバストネスに対する現在のバイアス非教師アプローチが、最適なパフォーマンスを達成するためにグループ情報に依存し続けていることを主張する。バイアスラベルは依然として効果的なモデル選択に不可欠であり、現実のシナリオにおけるこれらの手法の実用性を制限する。本稿では, 偏りのないモデルに対して, 完全にバイアスのない方法でトレーニングし, 妥当性を検証するための改訂手法を提案する。
論文参考訳（メタデータ） (2023-10-28T01:29:18Z)
A Study of Unsupervised Evaluation Metrics for Practical and Automatic Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文参考訳（メタデータ） (2023-08-01T05:01:05Z)
Adaptive Certified Training: Towards Better Accuracy-Robustness Tradeoffs [17.46692880231195]
本稿では,適応型認定ラジイを用いたトレーニングがモデルの精度と堅牢性の向上に役立つというキーインサイトに基づく,新しい認定トレーニング手法を提案する。提案手法の有効性を,MNIST,CIFAR-10,TinyImageNetデータセットに示す。
論文参考訳（メタデータ） (2023-07-24T18:59:46Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文参考訳（メタデータ） (2021-04-11T09:50:24Z)
Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文参考訳（メタデータ） (2021-01-08T11:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。