Fugu-MT 論文翻訳(概要): Weak Supervision Performance Evaluation via Partial Identification

論文の概要: Weak Supervision Performance Evaluation via Partial Identification

arxiv url: http://arxiv.org/abs/2312.04601v2
Date: Thu, 31 Oct 2024 05:03:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.001799
Title: Weak Supervision Performance Evaluation via Partial Identification
Title（参考訳）: 部分同定による弱スーパービジョン性能評価
Authors: Felipe Maia Polo, Subha Maity, Mikhail Yurochkin, Moulinath Banerjee, Yuekai Sun,
Abstract要約: Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
参考スコア（独自算出の注目度）: 46.73061437177238
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Programmatic Weak Supervision (PWS) enables supervised model training without direct access to ground truth labels, utilizing weak labels from heuristics, crowdsourcing, or pre-trained models. However, the absence of ground truth complicates model evaluation, as traditional metrics such as accuracy, precision, and recall cannot be directly calculated. In this work, we present a novel method to address this challenge by framing model evaluation as a partial identification problem and estimating performance bounds using Fr\'echet bounds. Our approach derives reliable bounds on key metrics without requiring labeled data, overcoming core limitations in current weak supervision evaluation techniques. Through scalable convex optimization, we obtain accurate and computationally efficient bounds for metrics including accuracy, precision, recall, and F1-score, even in high-dimensional settings. This framework offers a robust approach to assessing model quality without ground truth labels, enhancing the practicality of weakly supervised learning for real-world applications.
Abstract（参考訳）: Programmatic Weak Supervision (PWS) は、ヒューリスティックス、クラウドソーシング、または事前訓練されたモデルからの弱いラベルを利用して、地上の真理ラベルに直接アクセスすることなく、教師付きモデルのトレーニングを可能にする。しかし、精度、精度、リコールといった従来の指標を直接計算できないため、基礎的真理の欠如はモデル評価を複雑にする。本研究では,モデル評価を部分同定問題としてフレーミングし,Fr'echet境界を用いて性能境界を推定することにより,この問題に対処する新しい手法を提案する。提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。スケーラブルな凸最適化により,高精度,高精度,リコール,F1スコアといったメトリクスに対して,高次元の設定においても精度が高く,計算効率のよいバウンダリが得られる。このフレームワークは、実世界のアプリケーションに対して弱い教師付き学習の実践性を高めるため、基礎的な真理ラベルを使わずにモデル品質を評価するための堅牢なアプローチを提供する。

関連論文リスト

KAIROS: Scalable Model-Agnostic Data Valuation [8.766103946679435]
KAIROSはスケーラブルでモデルに依存しない評価フレームワークで、各例に分散影響スコアを割り当てる。 KAIROSは、最先端のモデル-、Shapley-、Wassersteinベースのベースラインを精度とランタイムの両方で一貫して上回っている。
論文参考訳（メタデータ） (2025-06-30T12:44:28Z)
Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach [1.3731623617634434]
既存の未学習指標の限界を同定し,共形予測にインスパイアされた評価指標を提案する。我々のメトリクスは、予測セットから基底真理ラベルが除外される範囲を効果的に捉えることができる。本稿では,Carini & Wagner 対逆攻撃損失に対する共形予測の洞察を統合するアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-31T18:58:43Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Group Robust Classification Without Any Group Information [5.053622900542495]
この研究は、グループロバストネスに対する現在のバイアス非教師アプローチが、最適なパフォーマンスを達成するためにグループ情報に依存し続けていることを主張する。バイアスラベルは依然として効果的なモデル選択に不可欠であり、現実のシナリオにおけるこれらの手法の実用性を制限する。本稿では, 偏りのないモデルに対して, 完全にバイアスのない方法でトレーニングし, 妥当性を検証するための改訂手法を提案する。
論文参考訳（メタデータ） (2023-10-28T01:29:18Z)
A Study of Unsupervised Evaluation Metrics for Practical and Automatic Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文参考訳（メタデータ） (2023-08-01T05:01:05Z)
Adaptive Certified Training: Towards Better Accuracy-Robustness Tradeoffs [17.46692880231195]
本稿では,適応型認定ラジイを用いたトレーニングがモデルの精度と堅牢性の向上に役立つというキーインサイトに基づく,新しい認定トレーニング手法を提案する。提案手法の有効性を,MNIST,CIFAR-10,TinyImageNetデータセットに示す。
論文参考訳（メタデータ） (2023-07-24T18:59:46Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文参考訳（メタデータ） (2021-04-11T09:50:24Z)
Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文参考訳（メタデータ） (2021-01-08T11:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。