論文の概要: Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models
- arxiv url: http://arxiv.org/abs/2305.06841v2
- Date: Tue, 6 Feb 2024 11:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:49:36.690009
- Title: Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models
- Title(参考訳): 2回考える:質問応答モデルの予測ショートカットをなくす効率を計測する
- Authors: Luk\'a\v{s} Mikula, Michal \v{S}tef\'anik, Marek Petrovi\v{c}, Petr
Sojka
- Abstract要約: そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
- 参考スコア(独自算出の注目度): 3.9052860539161918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the Large Language Models (LLMs) dominate a majority of language
understanding tasks, previous work shows that some of these results are
supported by modelling spurious correlations of training datasets. Authors
commonly assess model robustness by evaluating their models on
out-of-distribution (OOD) datasets of the same task, but these datasets might
share the bias of the training dataset.
We propose a simple method for measuring a scale of models' reliance on any
identified spurious feature and assess the robustness towards a large set of
known and newly found prediction biases for various pre-trained models and
debiasing methods in Question Answering (QA). We find that while existing
debiasing methods can mitigate reliance on a chosen spurious feature, the OOD
performance gains of these methods can not be explained by mitigated reliance
on biased features, suggesting that biases are shared among different QA
datasets. Finally, we evidence this to be the case by measuring that the
performance of models trained on different QA datasets relies comparably on the
same bias features. We hope these results will motivate future work to refine
the reports of LMs' robustness to a level of adversarial samples addressing
specific spurious features.
- Abstract(参考訳): 大規模な言語モデル(llm)が言語理解タスクの大部分を占める一方で、以前の研究は、これらの結果のいくつかがトレーニングデータセットのスプリアス相関のモデリングによってサポートされていることを示している。
著者は一般的に、同じタスクのout-of-distribution(ood)データセットでモデルを評価することによってモデルのロバスト性を評価するが、これらのデータセットはトレーニングデータセットのバイアスを共有する可能性がある。
本稿では,様々な事前学習モデルと問合せ解答法(QA)において,モデルが特定された突発的特徴への依存度を簡易に測定し,既知の予測バイアスと新たに発見された予測バイアスに対するロバスト性を評価する方法を提案する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、バイアス付き特徴への依存を緩和することによって説明できないことを示し、異なるQAデータセット間でバイアスが共有されることを示唆している。
最後に、異なるQAデータセットでトレーニングされたモデルの性能が、同じバイアス特性に比較可能に依存していることを測定することで、これを証明している。
これらの結果は、LMsの堅牢性に関する報告を、特定の突発的特徴に対処する敵のサンプルレベルまで改善する将来の研究の動機となることを願っている。
関連論文リスト
- Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Guide the Learner: Controlling Product of Experts Debiasing Method Based
on Token Attribution Similarities [17.082695183953486]
一般的な回避策は、二次バイアスモデルに基づいてトレーニング例を再重み付けすることで、堅牢なモデルをトレーニングすることである。
ここでは、バイアスドモデルが機能をショートカットする、という前提がある。
本稿では,主要モデルと偏りのあるモデル属性スコアの類似性を,プロダクト・オブ・エキスパートズ・ロス関数に組み込んだ微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-02-06T15:21:41Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Unveiling Project-Specific Bias in Neural Code Models [20.131797671630963]
大規模言語モデル(LLM)ベースのニューラルネットワークモデルは、実際のプロジェクト間アウトオブディストリビューション(OOD)データに効果的に一般化するのに苦労することが多い。
この現象は, 地中真実の証拠ではなく, プロジェクト固有のショートカットによる予測に大きく依存していることが示唆された。
サンプル間の潜在論理関係を利用してモデルの学習行動を規則化する新しいバイアス緩和機構を提案する。
論文 参考訳(メタデータ) (2022-01-19T02:09:48Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。