論文の概要: Understanding the Dynamics of Demonstration Conflict in In-Context Learning
- arxiv url: http://arxiv.org/abs/2603.04464v1
- Date: Tue, 03 Mar 2026 20:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.905354
- Title: Understanding the Dynamics of Demonstration Conflict in In-Context Learning
- Title(参考訳): インテクスト学習における実証論争のダイナミクスの理解
- Authors: Difan Jiao, Di Wang, Lijie Hu,
- Abstract要約: インコンテキスト学習により、大規模な言語モデルでは、数発のデモで新しいタスクを実行できる。
我々は,ルール推論として特徴付けるプロセスである,基礎となるパターンを推論するモデルを必要とする実演依存タスクについて検討する。
モデルが1つのデモからかなり性能劣化に悩まされていることが分かりました。
- 参考スコア(独自算出の注目度): 14.115388433771786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning enables large language models to perform novel tasks through few-shot demonstrations. However, demonstrations per se can naturally contain noise and conflicting examples, making this capability vulnerable. To understand how models process such conflicts, we study demonstration-dependent tasks requiring models to infer underlying patterns, a process we characterize as rule inference. We find that models suffer substantial performance degradation from a single demonstration with corrupted rule. This systematic misleading behavior motivates our investigation of how models process conflicting evidence internally. Using linear probes and logit lens analysis, we discover that under corruption models encode both correct and incorrect rules in intermediate layers but develop prediction confidence only in late layers, revealing a two-phase computational structure. We then identify attention heads for each phase underlying the reasoning failures: Vulnerability Heads in early-to-middle layers exhibit positional attention bias with high sensitivity to corruption, while Susceptible Heads in late layers significantly reduce support for correct predictions when exposed to the corrupted evidence. Targeted ablation validates our findings, with masking a small number of identified heads improving performance by over 10%.
- Abstract(参考訳): インコンテキスト学習により、大規模な言語モデルでは、数発のデモで新しいタスクを実行できる。
しかし、それぞれのデモには自然にノイズや矛盾する例が含まれているため、この能力は脆弱である。
このような矛盾をモデルがどのように処理するかを理解するために、モデルが基礎となるパターンを推論するために必要な実演依存タスク、すなわちルール推論として特徴付けるプロセスについて研究する。
モデルが1つのデモからかなり性能劣化に悩まされていることが分かりました。
この体系的な誤解を招く行動は、モデルがどのように内部で矛盾する証拠を処理するかを調査する動機となる。
線形プローブとロジットレンズ解析を用いて、中間層における正しい規則と不正確な規則の両方を符号化するが、遅延層にのみ予測信頼性が発現し、2相計算構造が明らかになった。
早期から中級層の脆弱性ヘッドは、汚損に対する感度の高い位置的注意バイアスを示し、後期層の感受性ヘッドは、腐敗した証拠に暴露した場合の正しい予測のサポートを著しく減少させる。
ターゲットアブレーションは, 少数の頭部をマスキングし, 性能を10%以上向上させることで, 得られた知見を裏付けるものである。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Detecting Regional Spurious Correlations in Vision Transformers via Token Discarding [0.7315240103690552]
本稿では,視覚変換器における突発的相関を検出する新しい手法を提案する。
また,浸潤性乳房腫瘤の集団分類において急激なシグナルを呈する症例も報告した。
論文 参考訳(メタデータ) (2025-09-04T08:40:40Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Adversarial Transferability in Deep Denoising Models: Theoretical Insights and Robustness Enhancement via Out-of-Distribution Typical Set Sampling [6.189440665620872]
深層学習に基づく画像認識モデルは優れた性能を示すが、ロバストネス分析の欠如は依然として重要な懸念点である。
主な問題は、これらのモデルが敵攻撃の影響を受けやすいことである。
本稿では,新たな対人防御手法であるOut-of-Distribution typical Set Smpling Training戦略を提案する。
論文 参考訳(メタデータ) (2024-12-08T13:47:57Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Overthinking the Truth: Understanding how Language Models Process False
Demonstrations [32.29658741345911]
モデルの内部表現のレンズを通して有害な模倣を研究する。
我々は「過剰思考」と「偽誘導頭部」の2つの関連する現象を同定する。
論文 参考訳(メタデータ) (2023-07-18T17:56:50Z) - Causal Analysis for Robust Interpretability of Neural Networks [0.2519906683279152]
我々は、事前学習されたニューラルネットワークの因果効果を捉えるための頑健な介入に基づく手法を開発した。
分類タスクで訓練された視覚モデルに本手法を適用した。
論文 参考訳(メタデータ) (2023-05-15T18:37:24Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Probing Representation Forgetting in Supervised and Unsupervised
Continual Learning [14.462797749666992]
破滅的な忘れ物は、以前にモデルで学んだ知識の急激な喪失と関係している。
表現を忘れることによって,モデル能力と損失関数が連続学習に与える影響について新たな知見が得られることを示す。
論文 参考訳(メタデータ) (2022-03-24T23:06:08Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。