論文の概要: Attribution-Guided Decoding
- arxiv url: http://arxiv.org/abs/2509.26307v1
- Date: Tue, 30 Sep 2025 14:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.161774
- Title: Attribution-Guided Decoding
- Title(参考訳): 属性誘導復号法
- Authors: Piotr Komorowski, Elena Golimblevskaia, Reduan Achtibat, Thomas Wiegand, Sebastian Lapuschkin, Wojciech Samek,
- Abstract要約: 本稿では,解釈可能性に基づくデコーディング戦略であるAttribution-Guided Decoding (AGD)を紹介する。
モデルアクティベーションを直接操作する代わりに、AGDは高確率出力トークン候補のセットを考える。
3つの挑戦領域にまたがってAGDの有効性を実証する。
- 参考スコア(独自算出の注目度): 24.52258081219335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The capacity of Large Language Models (LLMs) to follow complex instructions and generate factually accurate text is critical for their real-world application. However, standard decoding methods often fail to robustly satisfy these requirements, while existing control techniques frequently degrade general output quality. In this work, we introduce Attribution-Guided Decoding (AGD), an interpretability-based decoding strategy. Instead of directly manipulating model activations, AGD considers a set of high-probability output token candidates and selects the one that exhibits the highest attribution to a user-defined Region of Interest (ROI). This ROI can be flexibly defined over different parts of the model's input or internal components, allowing AGD to steer generation towards various desirable behaviors. We demonstrate AGD's efficacy across three challenging domains. For instruction following, we show that AGD significantly boosts adherence (e.g., improving the overall success rate on Llama 3.1 from 66.0% to 79.1%). For knowledge-intensive tasks, we show that guiding generation towards usage of internal knowledge components or contextual sources can reduce hallucinations and improve factual accuracy in both closed-book and open-book settings. Furthermore, we propose an adaptive, entropy-based variant of AGD that mitigates quality degradation and reduces computational overhead by applying guidance only when the model is uncertain. Our work presents a versatile, more interpretable, and effective method for enhancing the reliability of modern LLMs.
- Abstract(参考訳): LLM(Large Language Models)の複雑な命令に従い、現実的に正確なテキストを生成する能力は、現実のアプリケーションにとって非常に重要である。
しかし、標準的な復号法はこれらの要件を十分に満たさないことが多いが、既存の制御技術は一般的な出力品質を劣化させることが多い。
本稿では,解釈可能性に基づく復号化戦略であるAttribution-Guided Decoding (AGD)を紹介する。
モデルアクティベーションを直接操作する代わりに、AGDは高確率な出力トークン候補のセットを検討し、ユーザが定義した関心領域(ROI)への最も貢献度の高い候補を選択する。
このROIはモデルの入力または内部コンポーネントの異なる部分に柔軟に定義することができ、AGDは様々な望ましい振る舞いに向けて生成を制御できる。
3つの挑戦領域にまたがってAGDの有効性を実証する。
以下に示すように、AGDは定着率を著しく向上させる(例えば、Llama 3.1の総成功率を66.0%から79.1%に向上させる)。
知識集約型タスクでは、内部知識コンポーネントやコンテキストソースの利用を導くことによって、幻覚を減らし、クローズドブックとオープンブックの両方の設定における事実的精度を向上させることができる。
さらに,モデルが不確実な場合にのみガイダンスを適用することにより,品質劣化を軽減し,計算オーバーヘッドを低減できる適応型エントロピー型AGDを提案する。
本研究は,現代のLCMの信頼性を高めるための,多種多様な,より解釈可能な,効果的な方法を提案する。
関連論文リスト
- CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。
当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。
モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文 参考訳(メタデータ) (2025-08-04T08:28:25Z) - KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。
ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。
本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-03T06:31:17Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。
本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文 参考訳(メタデータ) (2025-05-06T05:15:12Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Towards LLM Guardrails via Sparse Representation Steering [11.710399901426873]
大規模言語モデル(LLM)は、自然言語生成タスクにおいて顕著な性能を示した。
SREと呼ばれるスパース符号化に基づく表現工学手法を提案し、ポリセマンティックなアクティベーションを構造化された単セマンティックな特徴空間に分解する。
スパースオートエンコーディングを活用することで,タスク固有のスパース特徴次元のみを分離・調整し,モデル動作の精密かつ解釈可能なステアリングを可能にする。
論文 参考訳(メタデータ) (2025-03-21T04:50:25Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
JoLAは既存のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。