論文の概要: Hessian-Enhanced Token Attribution (HETA): Interpreting Autoregressive LLMs
- arxiv url: http://arxiv.org/abs/2604.13258v1
- Date: Tue, 14 Apr 2026 19:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.276101
- Title: Hessian-Enhanced Token Attribution (HETA): Interpreting Autoregressive LLMs
- Title(参考訳): Hessian-Enhanced Token Attribution (HETA): Autoregressive LLMの解釈
- Authors: Vishal Pramanik, Maisha Maliha, Nathaniel D. Bastian, Sumit Kumar Jha,
- Abstract要約: Hessian-Enhanced Token Attribution (HETA)はデコーダのみの言語モデルに適した新しい属性フレームワークである。
HETAは3つの相補的なコンポーネントを組み合わせる: 層間のトークン間影響をキャプチャするセマンティック・トランジション・ベクター、二階効果をモデル化するヘッセン系感度スコア、トークンが隠蔽された際の情報損失を測定するKL発散。
複数のモデルやデータセットにまたがる実証的な評価は、HETAが既存の手法よりも、属性の忠実さと人間のアノテーションとの整合性を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 10.87622116540203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attribution methods seek to explain language model predictions by quantifying the contribution of input tokens to generated outputs. However, most existing techniques are designed for encoder-based architectures and rely on linear approximations that fail to capture the causal and semantic complexities of autoregressive generation in decoder-only models. To address these limitations, we propose Hessian-Enhanced Token Attribution (HETA), a novel attribution framework tailored for decoder-only language models. HETA combines three complementary components: a semantic transition vector that captures token-to-token influence across layers, Hessian-based sensitivity scores that model second-order effects, and KL divergence to measure information loss when tokens are masked. This unified design produces context-aware, causally faithful, and semantically grounded attributions. Additionally, we introduce a curated benchmark dataset for systematically evaluating attribution quality in generative settings. Empirical evaluations across multiple models and datasets demonstrate that HETA consistently outperforms existing methods in attribution faithfulness and alignment with human annotations, establishing a new standard for interpretability in autoregressive language models.
- Abstract(参考訳): 帰属法は、入力トークンの出力への寄与を定量化し、言語モデル予測を説明する。
しかし、既存のほとんどの技術はエンコーダベースのアーキテクチャ用に設計されており、デコーダのみのモデルにおける自己回帰生成の因果的・意味的複雑さを捉えるのに失敗する線形近似に依存している。
これらの制約に対処するために,デコーダのみの言語モデルに適した新しい属性フレームワークであるHessian-Enhanced Token Attribution (HETA)を提案する。
HETAは3つの相補的なコンポーネントを組み合わせる: 層間のトークン間影響をキャプチャするセマンティック・トランジション・ベクター、二階効果をモデル化するヘッセン系感度スコア、トークンが隠蔽された際の情報損失を測定するKL発散。
この統一された設計は、文脈に気付き、因果的に忠実で、意味的に根ざした属性を生み出す。
さらに、生成環境における属性品質を体系的に評価するためのベンチマークデータセットも導入する。
複数のモデルやデータセットにまたがる実証的な評価は、HETAが人間のアノテーションに対する帰属的忠実性と整合性において既存の手法を一貫して上回り、自己回帰言語モデルにおける解釈可能性の新しい標準を確立していることを示している。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Negative Matters: Multi-Granularity Hard-Negative Synthesis and Anchor-Token-Aware Pooling for Enhanced Text Embeddings [25.565372681837697]
クエリに類似するレベルが異なる多様な負のサンプルを生成するために,マルチグラニュラリティ・ハード負(MGH)合成フレームワークを導入する。
また,Anchor Token Aware(ATA)プーリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-31T13:24:48Z) - SEED: A Structural Encoder for Embedding-Driven Decoding in Time Series Prediction with LLMs [3.036179638516407]
組込み型デコードのための構造的エンコーダSEEDは,パッチ抽出のためのトークン対応エンコーダ,言語モデル埋め込みとパッチを整列するプロジェクションモジュール,タスク対応プロトタイプにパッチをマッピングするセマンティックプログラミング機構の4つの段階を統合している。
このモジュラーアーキテクチャは、推論から表現学習を分離し、数値パターンと意味論的推論の効率的なアライメントを可能にする。
論文 参考訳(メタデータ) (2025-06-25T06:40:14Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [56.30231216917128]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。
各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。
FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文 参考訳(メタデータ) (2025-02-16T13:54:32Z) - NormXLogit: The Head-on-Top Never Lies [15.215985417763472]
本稿では,個々の入力トークンの意義を評価するための新しい手法を提案する。
この方法は各トークンに関連付けられた入力および出力表現に基づいて動作する。
我々は、トークンの重要性と、その表現がモデルの最終的な予測に類似できる範囲との間に有意な関係を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T10:12:27Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [28.234859617081295]
RecSAEは、Sparse AutoEncoderでRecommendersを解釈する自動化され、一般化可能なプローブフレームワークである。
これはレコメンデーションモデルの内部状態から解釈可能なラテントを抽出し、解釈のセマンティックな概念にリンクする。
RecSAEは解釈中にオリジナルのモデルを変更せず、解釈結果に基づいたモデルへのターゲットのデバイアスを可能にする。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models [20.107727903240065]
本研究では,エンコーダに基づく言語モデルのための等方的および意味論的トークン埋め込みを再構築するために,DefindEMBを提案する。
本実験は,Wiktionaryの定義を応用し,そのような埋め込みを再構築する効果を実証する。
論文 参考訳(メタデータ) (2024-08-02T15:00:05Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。