論文の概要: Position: Explaining Behavioral Shifts in Large Language Models Requires a Comparative Approach
- arxiv url: http://arxiv.org/abs/2602.02304v1
- Date: Mon, 02 Feb 2026 16:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.297629
- Title: Position: Explaining Behavioral Shifts in Large Language Models Requires a Comparative Approach
- Title(参考訳): 位置: 大規模言語モデルにおける行動シフトの説明は、比較的なアプローチを必要とする
- Authors: Martino Ciaperoni, Marzio Di Vece, Luca Pappalardo, Fosca Giannotti, Francesco Giannini,
- Abstract要約: 行動シフトは、独立した単一のモデルではなく、相対的に説明されるべきである、と私たちは主張する。
我々は、適切な説明法を設計する際に考慮すべきデシラタのセットで比較XAI($-XAI)フレームワークを定式化する。
- 参考スコア(独自算出の注目度): 7.72875981545154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale foundation models exhibit behavioral shifts: intervention-induced behavioral changes that appear after scaling, fine-tuning, reinforcement learning or in-context learning. While investigating these phenomena have recently received attention, explaining their appearance is still overlooked. Classic explainable AI (XAI) methods can surface failures at a single checkpoint of a model, but they are structurally ill-suited to justify what changed internally across different checkpoints and which explanatory claims are warranted about that change. We take the position that behavioral shifts should be explained comparatively: the core target should be the intervention-induced shift between a reference model and an intervened model, rather than any single model in isolation. To this aim we formulate a Comparative XAI ($Δ$-XAI) framework with a set of desiderata to be taken into account when designing proper explaining methods. To highlight how $Δ$-XAI methods work, we introduce a set of possible pipelines, relate them to the desiderata, and provide a concrete $Δ$-XAI experiment.
- Abstract(参考訳): 大規模基盤モデルは、介入によって引き起こされる行動の変化が、スケーリング、微調整、強化学習、文脈内学習の後に現れるという行動変化を示す。
これらの現象の調査は近年注目されているが、その外見はいまだ見過ごされている。
古典的な説明可能なAI(XAI)メソッドは、モデルの単一チェックポイントで障害を検出できるが、構造的に不適切であり、異なるチェックポイント間で内部的に変化したことを正当化し、その変更について説明的主張が保証される。
中心となるターゲットは、独立した単一のモデルではなく、参照モデルとインターベントモデルの間の介入によって引き起こされるシフトであるべきです。
この目的のために、適切な説明法を設計する際に考慮すべきデシラタのセットで比較XAI(Δ$-XAI)フレームワークを定式化する。
Δ$-XAIメソッドがどのように動作するかを強調するために、可能なパイプラインのセットを導入し、それらをdeiderataに関連付け、具体的な$Δ$-XAI実験を提供する。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior [39.590138981646696]
ポストホックの解釈可能性のメソッドは、通常、モデルの振る舞いをそのコンポーネント、データ、または独立した訓練軌跡に関連付ける。
これらの観点をすべて統合した統合フレームワークであるExPLAINDを紹介します。
論文 参考訳(メタデータ) (2025-05-26T14:53:11Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。