論文の概要: The Attribution Contract: Feature Attribution for Generative Language Models
- arxiv url: http://arxiv.org/abs/2605.23080v1
- Date: Thu, 21 May 2026 22:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.123151
- Title: The Attribution Contract: Feature Attribution for Generative Language Models
- Title(参考訳): 属性契約:生成言語モデルの特徴属性
- Authors: Giang Nguyen,
- Abstract要約: 特徴属性法は、モデル出力にどの入力特徴が重要かを特定することを約束する。
生成言語モデルにおいて、そもそもどのような機能を機能とみなすべきかは、しばしば不明である。
私たちは属性契約(Attribution Contract)を紹介します。
- 参考スコア(独自算出の注目度): 1.6001421987996292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature attribution methods promise to identify which input features matter for a model output. In generative language models, however, it is often unclear what should count as a feature in the first place. In autoregressive language models, earlier generated tokens are both outputs of the model and inputs to later predictions. In diffusion language models, generation proceeds through iterative denoising or unmasking rather than fixed left-to-right prediction, so local explanation may target a state of diffusion rather than a next token. We argue that this ambiguity is not merely an implementation detail, but a conceptual limitation of carrying classifier-era feature attribution directly into generative language modeling. We introduce the Attribution Contract, a specification for feature-attribution claims that names what output is being explained, which features are eligible to receive attribution, what generative process is assumed, what is held fixed, and what model score is being attributed. The contract clarifies why the same attribution method can answer different questions depending on how it is instantiated. We argue that many disagreements about feature attribution in generative language models are not disagreements about attribution algorithms, but about unstated explanatory contracts. Using autoregressive and diffusion language models as case studies, we show when attribution to earlier generated tokens, intermediate states, or denoising stages is informative, when it is misleading, and why feature-attribution methods in generative language models should be evaluated as method-contract pairs.
- Abstract(参考訳): 特徴属性法は、モデル出力にどの入力特徴が重要かを特定することを約束する。
しかし、生成言語モデルでは、そもそもどのような機能を特徴とみなすべきかはよく分かっていない。
自己回帰言語モデルでは、初期のトークンはモデルの出力であり、後の予測への入力である。
拡散言語モデルでは、生成は固定された左から右への予測よりも反復的なデノベーションやアンマスキーによって進行するので、局所的な説明は次のトークンではなく拡散状態をターゲットにすることができる。
このあいまいさは単に実装の細部ではなく、生成言語モデリングに直接分類器による特徴属性を運ぶという概念的な制限である、と我々は主張する。
我々は、属性契約(Attribution Contract)を導入する。これは、どの出力が説明されているか、どの特徴が属性を受けられるか、生成プロセスが想定されるか、何が固定され、どのモデルスコアが属性であるか、という主張である。
契約は、どのようにインスタンス化されるかによって、なぜ同じ属性メソッドが異なる質問に答えられるのかを明確にする。
生成言語モデルにおける特徴帰属に関する多くの意見の相違は、帰属アルゴリズムに対する意見の相違ではなく、未定の説明契約に関する意見の相違である。
自己回帰言語モデルと拡散言語モデルを用いて,先行生成したトークン,中間状態,あるいは認知段階への帰属が情報的である場合,それが誤解を招く場合,および生成言語モデルにおける特徴帰属手法がメソッド・コントラクション・ペアとして評価されるべき理由を示す。
関連論文リスト
- A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [29.745218855471787]
トークン化は多くの言語モジュールの現在のアーキテクチャにおいて必要なコンポーネントである。
トークン化は、合理的な人間的な言語のパフォーマンスに必要である、と我々は主張する。
本稿では,建築的選択,すなわち構成,思考のための言語の優越性について論じる。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。