論文の概要: Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks
- arxiv url: http://arxiv.org/abs/2604.17761v1
- Date: Mon, 20 Apr 2026 03:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.676782
- Title: Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks
- Title(参考訳): リアリスティックベンチマークによるLLM故障の解釈可能性解析
- Authors: Rongyuan Tan, Jue Zhang, Zhuozhao Li, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang,
- Abstract要約: 解釈可能性ツールは、大規模言語モデル(LLM)の失敗を分析するために、ますます使われています。
現実的な環境下でのLLM故障を解析するための実用的なツールとして,LRPに基づく帰属性について検討した。
以上の結果から,このトークンレベルのコントラスト属性は,いくつかの障害事例において情報信号が得られるが,一般には適用できないことがわかった。
- 参考スコア(独自算出の注目度): 42.92210265283373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability tools are increasingly used to analyze failures of Large Language Models (LLMs), yet prior work largely focuses on short prompts or toy settings, leaving their behavior on commonly used benchmarks underexplored. To address this gap, we study contrastive, LRP-based attribution as a practical tool for analyzing LLM failures in realistic settings. We formulate failure analysis as \textit{contrastive attribution}, attributing the logit difference between an incorrect output token and a correct alternative to input tokens and internal model states, and introduce an efficient extension that enables construction of cross-layer attribution graphs for long-context inputs. Using this framework, we conduct a systematic empirical study across benchmarks, comparing attribution patterns across datasets, model sizes, and training checkpoints. Our results show that this token-level contrastive attribution can yield informative signals in some failure cases, but is not universally applicable, highlighting both its utility and its limitations for realistic LLM failure analysis. Our code is available at: https://aka.ms/Debug-XAI.
- Abstract(参考訳): 解釈可能性ツールは、Large Language Models (LLMs) の失敗を分析するのにますます使われていますが、以前の作業は主にショートプロンプトやおもちゃの設定に重点を置いており、一般的に使われているベンチマークにその振る舞いが過小評価されています。
このギャップに対処するため,現実的な環境下でのLLM故障を解析するための実用的なツールとして,LRPに基づく帰属性について検討した。
本稿では,不正な出力トークンと入力トークンと内部モデル状態とのロジット差に起因する「textit{contrastive Attribution}」として障害解析を定式化し,長文入力のための層間属性グラフの構築を可能にする効率的な拡張を導入する。
このフレームワークを使用することで、データセット間の属性パターン、モデルサイズ、トレーニングチェックポイントを比較し、ベンチマークを横断する体系的な実証的研究を行う。
以上の結果から,このトークンレベルのコントラスト属性は,いくつかの障害事例では情報信号が得られるが,汎用性は認められず,現実的なLCM故障解析におけるその有用性と限界を強調した。
私たちのコードは、https://aka.ms/Debug-XAI.com/で利用可能です。
関連論文リスト
- From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。
本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。
本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文 参考訳(メタデータ) (2025-09-26T12:07:47Z) - CLEAR: Error Analysis via LLM-as-a-Judge Made Easy [9.285203198113917]
LLMに基づくエラー解析のための対話型オープンソースパッケージであるCLEARを紹介する。
CLEARはまずインスタンスごとのテキストフィードバックを生成し、次に一連のシステムレベルのエラー問題を生成し、それぞれの問題の有効性を定量化する。
当社のパッケージはユーザに対して,集計視覚化による包括的なエラー解析を可能にする,インタラクティブなダッシュボードも提供しています。
論文 参考訳(メタデータ) (2025-07-24T13:15:21Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。