論文の概要: Short-circuiting Shortcuts: Mechanistic Investigation of Shortcuts in Text Classification
- arxiv url: http://arxiv.org/abs/2505.06032v1
- Date: Fri, 09 May 2025 13:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.273289
- Title: Short-circuiting Shortcuts: Mechanistic Investigation of Shortcuts in Text Classification
- Title(参考訳): ショートループショートカット:テキスト分類におけるショートカットの力学的検討
- Authors: Leon Eshuijs, Shihan Wang, Antske Fokkens,
- Abstract要約: 急激な相関(ショートカット)に対する信頼は、言語モデルの成功の多くを弱めていることが示されている。
モデルの意思決定メカニズムにおいて,ショートカットが実際にどのように処理されるかを検討する。
映画のレビューでは俳優の名前を制御可能なショートカットとして使用し、その結果に既知の影響を与えています。
- 参考スコア(独自算出の注目度): 2.262217900462841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliance on spurious correlations (shortcuts) has been shown to underlie many of the successes of language models. Previous work focused on identifying the input elements that impact prediction. We investigate how shortcuts are actually processed within the model's decision-making mechanism. We use actor names in movie reviews as controllable shortcuts with known impact on the outcome. We use mechanistic interpretability methods and identify specific attention heads that focus on shortcuts. These heads gear the model towards a label before processing the complete input, effectively making premature decisions that bypass contextual analysis. Based on these findings, we introduce Head-based Token Attribution (HTA), which traces intermediate decisions back to input tokens. We show that HTA is effective in detecting shortcuts in LLMs and enables targeted mitigation by selectively deactivating shortcut-related attention heads.
- Abstract(参考訳): 急激な相関(ショートカット)に対する信頼は、言語モデルの成功の多くを弱めていることが示されている。
これまでの研究は、予測に影響を与える入力要素の特定に重点を置いていた。
モデルの意思決定メカニズムにおいて,ショートカットが実際にどのように処理されるかを検討する。
映画のレビューでは俳優の名前を制御可能なショートカットとして使用し、その結果に既知の影響を与えています。
機械的解釈可能性法を用いて,ショートカットに着目した特定の注意点を特定する。
これらのヘッドは、完全な入力を処理する前にラベルに向けてモデルを移動させ、文脈分析をバイパスする未熟な決定を効果的に行う。
これらの知見に基づいて、中間決定を入力トークンに遡るヘッドベーストークン属性(HTA)を導入する。
我々は,HTAがLLMのショートカットの検出に有効であることを示し,ショートカット関連注目ヘッドを選択的に非活性化することにより標的緩和を可能にする。
関連論文リスト
- Navigating the Shortcut Maze: A Comprehensive Analysis of Shortcut
Learning in Text Classification by Language Models [20.70050968223901]
この研究は、過度に単純化されたショートカットを超えてモデルの信頼性を損なう微妙で複雑なショートカットの影響を克服する。
ショートカットを発生、スタイル、概念に分類する包括的なベンチマークを導入する。
本研究は,洗練されたショートカットに対するモデルの弾力性と感受性を系統的に検討する。
論文 参考訳(メタデータ) (2024-09-26T01:17:42Z) - Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models [18.005770232698566]
我々はまず,知識ニューロンによる事実的ショートカットの存在を探求する。
我々は,マルチホップ知識編集の観点から,事実的ショートカットによって引き起こされるリスクを分析する。
論文 参考訳(メタデータ) (2024-02-19T07:34:10Z) - Discovering Highly Influential Shortcut Reasoning: An Automated
Template-Free Approach [10.609035331083218]
本稿では,ショートカット推論を識別する新しい手法を提案する。
提案手法は,分布外データを利用して,ショートカット推論の重大度を定量化する。
自然言語推論と感性分析の実験により,我々のフレームワークが未知のショートカット推論の発見に成功していることが示された。
論文 参考訳(メタデータ) (2023-12-15T11:45:42Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Which Shortcut Solution Do Question Answering Models Prefer to Learn? [38.36299280464046]
質問応答(QA)モデルは、QAデータセットが意図したソリューションではなく、ショートカットソリューションを学ぶ傾向がある。
抽出および複数選択QAにおいて,回答位置と単語ラベル相関を利用したショートカットが優先的に学習されていることを示す。
我々は,ショートカットの学習性を利用して効果的なQA学習セットを構築することを実験的に示す。
論文 参考訳(メタデータ) (2022-11-29T13:57:59Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z) - Why Machine Reading Comprehension Models Learn Shortcuts? [56.629192589376046]
トレーニングデータにおけるショートカットの質問の大部分が、モデルが過度にショートカットのトリックに依存している、と私たちは主張する。
徹底的な実証分析により、MRCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向が示されている。
論文 参考訳(メタデータ) (2021-06-02T08:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。