論文の概要: Jacobian Scopes: token-level causal attributions in LLMs
- arxiv url: http://arxiv.org/abs/2601.16407v1
- Date: Fri, 23 Jan 2026 02:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.514176
- Title: Jacobian Scopes: token-level causal attributions in LLMs
- Title(参考訳): Jacobian Scopes: LLMにおけるトークンレベルの因果属性
- Authors: Toni J. B. Liu, Baran Zadeoğlu, Nicolas Boullé, Raphaël Sarfati, Christopher J. Earls,
- Abstract要約: Jacobian Scopes(ジャコビアンスコープス)は、大きな言語モデルを理解するための勾配に基づくトークンレベルの因果属性のスイートである。
提案手法は,近年議論されている,文脈内時系列予測に基づくメカニズムを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 10.472535430038759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) make next-token predictions based on clues present in their context, such as semantic descriptions and in-context examples. Yet, elucidating which prior tokens most strongly influence a given prediction remains challenging due to the proliferation of layers and attention heads in modern architectures. We propose Jacobian Scopes, a suite of gradient-based, token-level causal attribution methods for interpreting LLM predictions. By analyzing the linearized relations of final hidden state with respect to inputs, Jacobian Scopes quantify how input tokens influence a model's prediction. We introduce three variants - Semantic, Fisher, and Temperature Scopes - which respectively target sensitivity of specific logits, the full predictive distribution, and model confidence (inverse temperature). Through case studies spanning instruction understanding, translation and in-context learning (ICL), we uncover interesting findings, such as when Jacobian Scopes point to implicit political biases. We believe that our proposed methods also shed light on recently debated mechanisms underlying in-context time-series forecasting. Our code and interactive demonstrations are publicly available at https://github.com/AntonioLiu97/JacobianScopes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、意味記述や文脈内例のような文脈に現れるヒントに基づいて、次から次へと予測する。
しかし、どの先行トークンが与えられた予測に最も強く影響を及ぼすかは、現代の建築においてレイヤーや注目の頭文字が急増しているため、いまだに困難なままである。
我々は,LLM予測を解釈するための勾配に基づくトークンレベルの因果属性のスイートであるJacobian Scopesを提案する。
入力に関する最終隠れ状態の線形化関係を分析することで、Jacobian Scopesは入力トークンがモデルの予測にどのように影響するかを定量化する。
セマンティック、フィッシャー、温度スコープの3つのバリエーションを導入し、それぞれ特定のロジットの感度、完全な予測分布、モデルの信頼性(逆温度)を目標にしている。
命令理解、翻訳、文脈内学習(ICL)にまたがるケーススタディを通じて、Jacobian Scopes氏が暗黙の政治的偏見を指摘するような興味深い発見が明らかになった。
提案手法は、近年議論されている文脈内時系列予測のメカニズムにも光を当てていると信じている。
私たちのコードとインタラクティブなデモはhttps://github.com/AntonioLiu97/JacobianScopes.comで公開されています。
関連論文リスト
- Framework for Machine Evaluation of Reasoning Completeness in Large Language Models For Classification Tasks [0.0]
本稿では、説明の完全性のためのRAS-Reasoning Alignmentを紹介する。
我々は,広く使用されている4つのテキスト分類データセット,WIKI ONTOLOGY, AG NEWS, IMDB, GOEMOTIONSを分析した。
正解予測はサポート特徴のカバレッジが高く,正解予測は矛盾する特徴のカバレッジの増大と関連していることを示す。
論文 参考訳(メタデータ) (2025-10-23T20:22:22Z) - Unraveling Token Prediction Refinement and Identifying Essential Layers in Language Models [0.0]
本研究の目的は,大規模言語モデル (LLM) が内部処理によるトークン予測を反復的に洗練することである。
我々は,LLMが入力コンテキストから情報にアクセスし活用する方法,および関連する情報の位置がモデルのトークン予測改善プロセスにどのように影響するかに着目した。
論文 参考訳(メタデータ) (2025-01-25T03:34:15Z) - A Law of Next-Token Prediction in Large Language Models [26.240524947579118]
大規模言語モデル(LLM)は様々なアプリケーションドメインで広く使われている。
文脈化トークン埋め込みの学習を規定する正確かつ定量的な法則を導入する。
その結果, 各層は予測精度の向上に等しく寄与することがわかった。
論文 参考訳(メタデータ) (2024-08-24T02:48:40Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。