論文の概要: Correcting Influence: Unboxing LLM Outputs with Orthogonal Latent Spaces
- arxiv url: http://arxiv.org/abs/2605.12809v1
- Date: Tue, 12 May 2026 23:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.720813
- Title: Correcting Influence: Unboxing LLM Outputs with Orthogonal Latent Spaces
- Title(参考訳): 矯正効果:直交遅延空間を用いたLCM出力のアンボックス化
- Authors: Shixing Yu, Promit Ghosal, Kyra Gan,
- Abstract要約: 本稿では,トークンレベルの影響を,一般的な予測タスクに対する潜時媒介アプローチを通じて推測するフレキシブルなフレームワークを提案する。
トークンをまたいで加法的に分解する従来の方法とは異なり、遅延特徴よりも計算された影響は本質的に分解不可能である。
我々のフレームワークは信頼を高め、モデル監査を可能にし、透明性と説明責任のある決定を必要とする高評価領域に一般化する。
- 参考スコア(独自算出の注目度): 9.24259308424615
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A critical step for reliable large language models (LLMs) use in healthcare is to attribute predictions to their training data, akin to a medical case study. This requires token-level precision: pinpointing not just which training examples influence a decision, but which tokens within them are responsible. While influence functions offer a principled framework for this, prior work is restricted to autoregressive settings and relies on an implicit assumption of token independence, rendering their identified influences unreliable. We introduce a flexible framework that infers token-level influence through a latent mediation approach for general prediction tasks. Our method attaches sparse autoencoders to any layer of a pretrained LLM to learn a basis of approximately independent latent features. Unlike prior methods where influence decomposes additively across tokens, influence computed over latent features is inherently non-decomposable. To address this, we introduce a novel method using Jacobian-vector products. Token-level influence is obtained by propagating latent attributions back to the input space via token activation patterns. We scale our approach using efficient inverse-Hessian approximations. Experiments on medical benchmarks show our approach identifies sparse, interpretable sets of tokens that jointly influence predictions. Our framework enhances trust and enables model auditing, generalizing to high-stakes domain requiring transparent and accountable decisions.
- Abstract(参考訳): 医療における信頼性の高い大規模言語モデル(LLM)の重要ステップは、医療ケーススタディと同様、予測をトレーニングデータに属性付けることである。
どのトレーニング例が決定に影響を及ぼすかではなく、どのトークンが責任を持つかをピンポイントする。
影響関数はこれに原則的なフレームワークを提供するが、事前の作業は自己回帰的な設定に限定されており、トークン独立性の暗黙的な仮定に依存しているため、識別された影響は信頼できない。
本稿では,トークンレベルの影響を,一般的な予測タスクに対する潜時媒介アプローチを通じて推測するフレキシブルなフレームワークを提案する。
本手法は,事前学習したLCMの任意の層にスパースオートエンコーダをアタッチして,ほぼ独立した潜在特徴の基底を学習する。
トークンをまたいで加法的に分解する従来の方法とは異なり、遅延特徴よりも計算された影響は本質的に分解不可能である。
これを解決するために,ヤコビアンベクトル積を用いた新しい手法を提案する。
トークンアクティベーションパターンを介して、潜在属性を入力空間に戻すことにより、トークンレベルの影響を得る。
効率的な逆ヘッセン近似を用いて、我々のアプローチをスケールする。
医学ベンチマークの実験では,予測に共同で影響を及ぼす希少で解釈可能なトークンの集合を同定する。
我々のフレームワークは信頼を高め、モデル監査を可能にし、透明性と説明責任のある決定を必要とする高評価領域に一般化する。
関連論文リスト
- Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models [53.15468578562038]
マルチモーダル大言語モデル(MLLM)のための不確実性を考慮した探索的直接参照最適化(UE-DPO)手法を提案する。
まず、与えられた画像にトークン予測を根拠にしなかったモデルの不確かさを定量化する。
次に、好ましいサンプルにおいて、視覚的に不足したトークンに対する学習のプレッシャーを高め、非推奨サンプルにおける有益な知識の過度な報酬化を緩和する。
論文 参考訳(メタデータ) (2026-05-06T13:08:12Z) - Support Tokens, Stability Margins, and a New Foundation for Robust LLMs [1.429795922604976]
現代基礎モデルのバックボーンである因果自己注意変換器を再解釈する。
バリア制約が自己アテンションパラメータに現れる。
これにより、注意が不調になる境界が明らかになる。
論文 参考訳(メタデータ) (2026-02-25T08:44:44Z) - Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution [11.387100835483672]
トレーニングデータ属性(TDA)メソッドは、トレーニングデータが特定の行動、特に意図しない行動を実行する方法を特定する。
影響関数のような既存のアプローチは、計算的に高価であり、単一のテスト例に基づく属性である。
帰属中にモデル内の解釈可能な構造を利用する。
従来のTDAパイプラインに解釈可能な構造を組み込むことで,データによるモデル動作のよりスケーラブルで説明可能な,より優れた制御が可能になることを示す。
論文 参考訳(メタデータ) (2026-02-16T16:02:09Z) - TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior [30.782240245074433]
トケナイザーは、テキストが言語モデル(LM)によって表現され、処理される基本的な基盤を提供する。
TokSuiteは、トークン化がLMに与える影響を研究するためのモデルとベンチマークのコレクションである。
論文 参考訳(メタデータ) (2025-12-23T20:43:06Z) - ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning [51.133569963553576]
ssTokenは自己変調されたセマンティックなToken Selectionアプローチである。
自己変調の選択とセマンティック・アウェアの選択の両方が、フルデータの微調整よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-21T03:21:04Z) - Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models [16.540220733551823]
VLM(Large Vision-Language Models)は、強力なマルチモーダル推論を実現するが、冗長な視覚トークンから重い推論コストを発生させる。
注意に基づく手法は、しばしばレイヤやヘッド間で不安定な生の注意スコアに依存する。
簡単な直感に基づいて構築されたトレーニング不要のフレームワークとして,我々の提案する。
論文 参考訳(メタデータ) (2025-09-29T14:20:05Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。