論文の概要: Using Adversarial Attacks to Reveal the Statistical Bias in Machine
Reading Comprehension Models
- arxiv url: http://arxiv.org/abs/2105.11136v2
- Date: Tue, 25 May 2021 08:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 08:03:06.021042
- Title: Using Adversarial Attacks to Reveal the Statistical Bias in Machine
Reading Comprehension Models
- Title(参考訳): 機械読解モデルにおける逆攻撃による統計的バイアスの解明
- Authors: Jieyu Lin, Jiajie Zou and Nai Ding
- Abstract要約: 我々は,MDCモデルを攻撃し,これらのモデルにおける統計的バイアスを明らかにするための,単純かつ効果的な手法を実証する。
BERT、ALBERT、RoBERTaなど、事前訓練済みの言語モデルでは、これらのオプションが問題に無関係である場合でも、いくつかのオプションに対して一貫した好みを示すことが判明した。
しかし、人間読者はこれらの無関係な選択肢の影響をはっきりと受けていない。
- 参考スコア(独自算出の注目度): 4.769747792846005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have achieved human-level performance on many
Machine Reading Comprehension (MRC) tasks, but it remains unclear whether these
models truly understand language or answer questions by exploiting statistical
biases in datasets. Here, we demonstrate a simple yet effective method to
attack MRC models and reveal the statistical biases in these models. We apply
the method to the RACE dataset, for which the answer to each MRC question is
selected from 4 options. It is found that several pre-trained language models,
including BERT, ALBERT, and RoBERTa, show consistent preference to some
options, even when these options are irrelevant to the question. When
interfered by these irrelevant options, the performance of MRC models can be
reduced from human-level performance to the chance-level performance. Human
readers, however, are not clearly affected by these irrelevant options.
Finally, we propose an augmented training method that can greatly reduce
models' statistical biases.
- Abstract(参考訳): 事前学習された言語モデルは、多くのMachine Reading Comprehension (MRC)タスクで人間レベルのパフォーマンスを達成したが、これらのモデルが本当に言語を理解しているのか、データセットの統計的バイアスを利用して質問に答えているのかは不明だ。
本稿では,mrcモデルに対する単純かつ効果的な手法を示し,モデル内の統計的バイアスを明らかにする。
提案手法を RACE データセットに適用し,各 MRC 質問に対する回答を 4 つの選択肢から選択する。
BERT、ALBERT、RoBERTaなど、事前訓練済みの言語モデルでは、これらのオプションが問題に無関係である場合でも、いくつかのオプションに対して一貫した優先順位を示す。
これらの無関係な選択肢に干渉すると、RCモデルの性能は人間レベルの性能からチャンスレベルの性能まで低下させることができる。
しかし、人間読者はこれらの無関係な選択肢の影響を受けていない。
最後に,モデルの統計的バイアスを大幅に低減できる拡張トレーニング手法を提案する。
関連論文リスト
- REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。
LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。
複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文 参考訳(メタデータ) (2024-08-18T14:08:31Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - MoPe: Model Perturbation-based Privacy Attacks on Language Models [4.4746931463927835]
大規模言語モデル(LLM)は、トレーニングデータに存在する機密情報を意図せずにリークすることができる。
本稿では,事前学習した言語モデルのトレーニングデータに含まれるテキストを高い信頼度で識別する新しい手法であるモデル摂動(MoPe)を提案する。
論文 参考訳(メタデータ) (2023-10-22T17:33:19Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - MRCLens: an MRC Dataset Bias Detection Toolkit [82.44296974850639]
MRCLensは,ユーザがフルモデルをトレーニングする前に,バイアスが存在するかどうかを検出するツールキットである。
ツールキットの導入の便宜のために,MDCにおける共通バイアスの分類も提供する。
論文 参考訳(メタデータ) (2022-07-18T21:05:39Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。