論文の概要: Fragile Reasoning: A Mechanistic Analysis of LLM Sensitivity to Meaning-Preserving Perturbations
- arxiv url: http://arxiv.org/abs/2604.01639v1
- Date: Thu, 02 Apr 2026 05:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.376822
- Title: Fragile Reasoning: A Mechanistic Analysis of LLM Sensitivity to Meaning-Preserving Perturbations
- Title(参考訳): フラジイル推論:平均保存摂動に対するLDM感度の力学的解析
- Authors: Shou-Tzu Han, Rodrigue Rizk, KC Santosh,
- Abstract要約: 大規模言語モデルは、数学的推論ベンチマークにおいて強い性能を示すが、意味を保存する表面摂動に対して驚くほど脆弱である。
我々は677 GSM8K問題に対して,3つのオープンウェイトLLM(Mistral-7B,Llama-3-8B,Qwen2.5-7B)を意味論的に等価な変種と組み合わせて評価した。
3つのモデルはいずれも相当な解答フリップ率(28.8%-45.1%)を示し、数字のパラフレーズは名前スワップよりも一貫して破壊的である。
- 参考スコア(独自算出の注目度): 2.7946918847372277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models demonstrate strong performance on mathematical reasoning benchmarks, yet remain surprisingly fragile to meaning-preserving surface perturbations. We systematically evaluate three open-weight LLMs, Mistral-7B, Llama-3-8B, and Qwen2.5-7B, on 677 GSM8K problems paired with semantically equivalent variants generated through name substitution and number format paraphrasing. All three models exhibit substantial answer-flip rates (28.8%-45.1%), with number paraphrasing consistently more disruptive than name swaps. To trace the mechanistic basis of these failures, we introduce the Mechanistic Perturbation Diagnostics (MPD) framework, combining logit lens analysis, activation patching, component ablation, and the Cascading Amplification Index (CAI) into a unified diagnostic pipeline. CAI, a novel metric quantifying layer-wise divergence amplification, outperforms first divergence layer as a failure predictor for two of three architectures (AUC up to 0.679). Logit lens reveals that flipped samples diverge from correct predictions at significantly earlier layers than stable samples. Activation patching reveals a stark architectural divide in failure localizability: Llama-3 failures are recoverable by patching at specific layers (43/60 samples), while Mistral and Qwen failures are broadly distributed (3/60 and 0/60). Based on these diagnostic signals, we propose a mechanistic failure taxonomy (localized, distributed, and entangled) and validate it through targeted repair experiments: steering vectors and layer fine-tuning recover 12.2% of localized failures (Llama-3) but only 7.2% of entangled (Qwen) and 5.2% of distributed (Mistral) failures.
- Abstract(参考訳): 大規模言語モデルは、数学的推論ベンチマークにおいて強い性能を示すが、意味を保存する表面摂動に対して驚くほど脆弱である。
我々は677 GSM8K問題に対して3つのオープンウェイト LLM (Mistral-7B, Llama-3-8B, Qwen2.5-7B) を, 名前置換と数形式パラフレーズによって生成した意味論的等価な変種と組み合わせて, 体系的に評価した。
3つのモデルはいずれも相当な解答フリップ率(28.8%-45.1%)を示し、数字のパラフレーズは名前スワップよりも一貫して破壊的である。
これらの故障のメカニズムを追究するために,ロジットレンズ解析,アクティベーションパッチ,コンポーネントアブレーション,カスケーディング増幅指数(Cascading Amplification Index, CAI)を統合診断パイプラインに組み込んだMPD(Mechanistic Perturbation Diagnostics)フレームワークを導入する。
CAIは3つのアーキテクチャのうち2つの失敗予測器(AUC最大0.679)において、第1の分散層よりも優れている。
ロジットレンズは、安定な試料よりもかなり早い層での正しい予測から、反転したサンプルが分岐していることを明らかにする。
Llama-3の障害は特定のレイヤ(43/60サンプル)にパッチを当てて回復可能で、MistralとQwenの障害は3/60と0/60に広く分散しています。
これらの診断信号に基づいて, 機械的故障分類(局所的, 分散的, 絡み合わされた)を提案し, 目標とする修復実験により, 局所的故障(Llama-3)の12.2%, 絡み合わされた(Qwen)の7.2%, 分散的(ミストラル)の5.2%の障害の5.2%で検証した。
関連論文リスト
- Anatomical Heterogeneity in Transformer Language Models [0.0]
現在のトランスフォーマー言語モデルは、すべての層にわたって均一な計算予算で訓練されている。
我々は、SmolLM2-135Mの実証分析により、この仮定に挑戦する。
論文 参考訳(メタデータ) (2026-03-19T16:59:17Z) - Semantic Invariance in Agentic AI [2.7821684674538347]
大規模言語モデルは、意思決定支援、科学的問題解決、マルチエージェント調整システムにおいて、自律的推論エージェントとしての役割をますます高めている。
LLMエージェントを連続的なアプリケーションにデプロイするには、それらの推論が意味論的に等価な入力変動の下で安定であることを保証する必要がある。
標準ベンチマーク評価は、固定された正準問題定式化の精度を評価するが、この重要な信頼性の次元を捉えることができない。
論文 参考訳(メタデータ) (2026-03-13T17:08:44Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Breaking Semantic Hegemony: Decoupling Principal and Residual Subspaces for Generalized OOD Detection [10.596067236901968]
最先端(SOTA)モデルにおける単純度パラドックスについて検討する。
モデルは、意味的に微妙なOODサンプルを区別する上で、鋭い感度を示すが、厳密な幾何学的盲点に苦しむ。
そこで我々は,D-KNNを提案する。
論文 参考訳(メタデータ) (2026-02-05T06:32:33Z) - Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - Think Before You Prune: Self-Reflective Structured Pruning for Reasoning Language Models [31.422773877490613]
推論 LLM (Reasoning LLMs) はチェーン・オブ・ソート・ジェネレーションを通じて強力な多段階推論を実現する。
RLMの大きなモデルサイズと長いデコードタイムのアウトプットは、リソース制約のある設定にデプロイするのにコストがかかり、不適当である。
我々は、構造化されたプルーニングフレームワークであるRESPを紹介し、プルーニング決定とモデルの推論力学を一致させる。
論文 参考訳(メタデータ) (2025-12-01T20:27:05Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。