論文の概要: Reassessing the Validity of Spurious Correlations Benchmarks
- arxiv url: http://arxiv.org/abs/2409.04188v1
- Date: Fri, 6 Sep 2024 11:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:05:19.646713
- Title: Reassessing the Validity of Spurious Correlations Benchmarks
- Title(参考訳): Spurious correlations Benchmarks の妥当性の再評価
- Authors: Samuel J. Bell, Diane Bouchacourt, Levent Sagun,
- Abstract要約: 提案手法は,問題に対して最も類似したベンチマークを用いて,実践者がメソッドを選択するためのレシピである。
特定のベンチマークは、メソッドパフォーマンスの有意義な尺度ではなく、いくつかのメソッドは、広く使われるには十分な堅牢性を持っていない。
- 参考スコア(独自算出の注目度): 13.056731788383257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks can fail when the data contains spurious correlations. To understand this phenomenon, researchers have proposed numerous spurious correlations benchmarks upon which to evaluate mitigation methods. However, we observe that these benchmarks exhibit substantial disagreement, with the best methods on one benchmark performing poorly on another. We explore this disagreement, and examine benchmark validity by defining three desiderata that a benchmark should satisfy in order to meaningfully evaluate methods. Our results have implications for both benchmarks and mitigations: we find that certain benchmarks are not meaningful measures of method performance, and that several methods are not sufficiently robust for widespread use. We present a simple recipe for practitioners to choose methods using the most similar benchmark to their given problem.
- Abstract(参考訳): ニューラルネットワークは、データが急激な相関を含むとフェールする可能性がある。
この現象を理解するために、研究者は緩和法を評価するための多くの素早い相関ベンチマークを提案している。
しかし、これらのベンチマークは大きな不一致を示し、一方のベンチマークで最高のメソッドはもう一方のベンチマークでは性能が良くない。
この不一致について検討し、ベンチマークが満足すべき3つのデシラタを定義して、メソッドを有意に評価することで、ベンチマークの有効性を検討する。
ベンチマークと緩和の両方に影響を及ぼす: 特定のベンチマークがメソッド性能の有意義な尺度ではないこと、そして、いくつかのメソッドが広く使われるには十分に堅牢ではないこと。
提案手法は,与えられた問題に最もよく似たベンチマークを用いて,実践者がメソッドを選択するための簡単なレシピを提供する。
関連論文リスト
- PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Baseline Results for Selected Nonlinear System Identification Benchmarks [2.144088660722956]
本稿では,5つのベンチマークにおいて,10種類のベースライン手法とその相対的性能について述べる。
本研究の目的は,識別手法の客観的比較に関する思考と議論を刺激することである。
論文 参考訳(メタデータ) (2024-05-17T13:40:59Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T03:49:04Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Rethinking Empirical Evaluation of Adversarial Robustness Using
First-Order Attack Methods [6.531546527140473]
境界1次攻撃法に対する逆算精度の過大評価につながる3つの一般的な事例を同定する。
本稿では,不正確な勾配計算の源泉に対処する補償手法を提案する。
全体として、従来の訓練されたディープニューラルネットワークにおいても、ロバスト性を示すものではない敵の精度が過大評価されていることを示す。
論文 参考訳(メタデータ) (2020-06-01T22:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。