論文の概要: On the Limitations of Dataset Balancing: The Lost Battle Against
Spurious Correlations
- arxiv url: http://arxiv.org/abs/2204.12708v1
- Date: Wed, 27 Apr 2022 05:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 12:59:56.247378
- Title: On the Limitations of Dataset Balancing: The Lost Battle Against
Spurious Correlations
- Title(参考訳): データセットのバランスの限界について:スプリアス相関に対する失われた戦い
- Authors: Roy Schwartz and Gabriel Stanovsky
- Abstract要約: ディープラーニングモデルは、単純な特徴と特定の出力ラベルの間の低レベルの相関に敏感である。
この問題を軽減するために一般的なプラクティスは、新しいインスタンスの追加や"簡単"なインスタンスのフィルタリングによってデータセットのバランスをとることだ。
しかし、すべてのシングルワード機能のバランスさえ、これらの相関を緩和するには不十分です。
- 参考スコア(独自算出の注目度): 17.709208772225512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that deep learning models in NLP are highly sensitive
to low-level correlations between simple features and specific output labels,
leading to overfitting and lack of generalization. To mitigate this problem, a
common practice is to balance datasets by adding new instances or by filtering
out "easy" instances (Sakaguchi et al., 2020), culminating in a recent proposal
to eliminate single-word correlations altogether (Gardner et al., 2021). In
this opinion paper, we identify that despite these efforts,
increasingly-powerful models keep exploiting ever-smaller spurious
correlations, and as a result even balancing all single-word features is
insufficient for mitigating all of these correlations. In parallel, a truly
balanced dataset may be bound to "throw the baby out with the bathwater" and
miss important signal encoding common sense and world knowledge. We highlight
several alternatives to dataset balancing, focusing on enhancing datasets with
richer contexts, allowing models to abstain and interact with users, and
turning from large-scale fine-tuning to zero- or few-shot setups.
- Abstract(参考訳): 最近の研究によると、NLPのディープラーニングモデルは、単純な特徴と特定の出力ラベルの間の低レベルの相関に非常に敏感であり、過剰適合と一般化の欠如をもたらす。
この問題を軽減するために、データセットのバランスを取るために、新しいインスタンスを追加したり、"easy"インスタンスをフィルタリングすることで(Sakaguchiら、2020年)、シングルワード相関を完全に排除する最近の提案(Gardnerら、2021年)が一般的である。
この意見書では、これらの努力にもかかわらず、ますます強力なモデルが、より小さなスプリットな相関を利用しており、その結果、すべての単一単語の特徴のバランスさえも、これらの相関を緩和するには不十分である。
並行して、真にバランスの取れたデータセットは「赤ちゃんを風呂に投げ出す」ことに縛られ、常識と世界の知識をエンコードする重要なシグナルを見逃す。
データセットのバランシングの代替として,よりリッチなコンテキストによるデータセットの拡張,モデルによるユーザへの回避とインタラクション,大規模な微調整からゼロショットあるいは少数ショットのセットアップへの転換などを挙げる。
関連論文リスト
- Autoencoder based approach for the mitigation of spurious correlations [2.7624021966289605]
純粋な相関は、真の基盤となる関係を反映しないデータの誤関連を指す。
これらの相関により、ディープニューラルネットワーク(DNN)は、さまざまなデータセットや実世界のシナリオで堅牢でないパターンを学ぶことができる。
本稿では,GWHD(Global Wheat Head Detection)2021データセットに存在するスプリアス相関の性質を自動エンコーダで解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-27T05:28:44Z) - Unsupervised Concept Discovery Mitigates Spurious Correlations [45.48778210340187]
トレーニングデータにおける急激な相関関係のモデルはしばしば脆い予測を発生させ、意図しないバイアスを導入する。
本稿では,教師なし対象中心学習と突発的相関の緩和の新たな関連性を確立する。
コバルト(CoBalT)は、サブグループの人間のラベル付けを必要とせず、効果的に素早い相関を緩和する概念バランス技術である。
論文 参考訳(メタデータ) (2024-02-20T20:48:00Z) - Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文 参考訳(メタデータ) (2023-11-08T01:27:34Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Towards Mitigating more Challenging Spurious Correlations: A Benchmark & New Datasets [43.64631697043496]
ディープニューラルネットワークは、しばしばクラスラベルと急激な相関を持つ非予測的特徴を利用する。
急激な相関を修復する最近の研究が増えているにもかかわらず、標準化されたベンチマークの欠如は再現可能な評価を妨げている。
本稿では,PythonパッケージであるSpuCoについて述べる。
論文 参考訳(メタデータ) (2023-06-21T00:59:06Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Towards Integration of Discriminability and Robustness for
Document-Level Relation Extraction [41.51148745387936]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の長距離コンテキスト依存推論に依存するエンティティペアの関係を予測する。
本研究では,DocRE問題に対する差別性とロバスト性の両方をよりよく統合することを目的としている。
エントロピーの最小化と教師付きコントラスト学習を革新的にカスタマイズする。
論文 参考訳(メタデータ) (2023-04-03T09:11:18Z) - Pipelined correlated minimum weight perfect matching of the surface code [56.01788646782563]
最小ウェイト完全マッチングを用いて表面コードを復号するパイプライン手法について述べる。
独立な非通信可能な並列化処理段階は、潜在的な相関に従ってグラフを再重み付けする。
後続の一般的なステージがマッチングを終了します。
完全にフォールトトレラントなトーリック, 回転しない, 回転する曲面符号に対して, 新たなアルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2022-05-19T19:58:02Z) - Disentanglement and Generalization Under Correlation Shifts [22.499106910581958]
実世界のデータでは、変動要因間の相関が一般的である。
機械学習アルゴリズムは、ノイズの多いデータに対する予測性能を高めることができるため、そのような相関を利用する利点がある。
潜在部分空間の様々な要因を捉える表現を学習することを目的としている。
論文 参考訳(メタデータ) (2021-12-29T18:55:17Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。