論文の概要: TokenShapley: Token Level Context Attribution with Shapley Value
- arxiv url: http://arxiv.org/abs/2507.05261v2
- Date: Wed, 09 Jul 2025 16:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 15:30:52.574889
- Title: TokenShapley: Token Level Context Attribution with Shapley Value
- Title(参考訳): TokenShapley: 共有価値によるトークンレベルのコンテクスト属性
- Authors: Yingtai Xiao, Yuqing Zhu, Sirat Samyoun, Wanrong Zhang, Jiachen T. Wang, Jian Du,
- Abstract要約: 大規模言語モデル(LLM)のためのトークンレベルの新しい属性手法であるTokenShapleyを提案する。
事前計算されたデータストアをコンテキスト検索と計算に利用してトークンの重要性を定量化することで、TokenShapleyは詳細なデータ属性アプローチを提供する。
4つのベンチマークにおいて、TokenShapleyはトークンレベルの属性において最先端のベースラインよりも優れており、精度は11~23%向上している。
- 参考スコア(独自算出の注目度): 7.277801351476534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate strong capabilities in in-context learning, but verifying the correctness of their generated responses remains a challenge. Prior work has explored attribution at the sentence level, but these methods fall short when users seek attribution for specific keywords within the response, such as numbers, years, or names. To address this limitation, we propose TokenShapley, a novel token-level attribution method that combines Shapley value-based data attribution with KNN-based retrieval techniques inspired by recent advances in KNN-augmented LLMs. By leveraging a precomputed datastore for contextual retrieval and computing Shapley values to quantify token importance, TokenShapley provides a fine-grained data attribution approach. Extensive evaluations on four benchmarks show that TokenShapley outperforms state-of-the-art baselines in token-level attribution, achieving an 11-23% improvement in accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文脈内学習において強力な能力を示すが、生成した応答の正しさを検証することは依然として困難である。
従来の研究は、文レベルで属性を探索してきたが、数字、年月、名前など、応答内の特定のキーワードに対する属性を求めると、これらのメソッドは不足する。
この制限に対処するために,近年のKNN拡張LLMの進歩に触発された,Shapley値に基づくデータ属性とKNNに基づく検索技術を組み合わせたトークンレベルの属性手法であるTokenShapleyを提案する。
事前計算されたデータストアをコンテキスト検索と計算に利用してトークンの重要性を定量化することで、TokenShapleyは詳細なデータ属性アプローチを提供する。
4つのベンチマークにおいて、TokenShapleyはトークンレベルの属性において最先端のベースラインよりも優れており、精度は11~23%向上している。
関連論文リスト
- KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning [19.25257653416883]
Key-token Advantage Estimation (KTAE)は、新たなモデルを導入することなく、きめ細かいトークンレベルの利点を推定する新しいアルゴリズムである。
GRPO+KTAEとDAPO+KTAEで訓練されたモデルは、5つの数学的推論ベンチマークにおいてベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-22T16:00:33Z) - Shapley-Guided Utility Learning for Effective Graph Inference Data Valuation [6.542796128290513]
本稿では,グラフ推論データ評価の新しいフレームワークであるShapley-Guided Utility Learning (SGUL)を提案する。
SGULは、転送可能なデータ特化機能とモデル特化機能を組み合わせて、地上の真理ラベルに頼ることなく、テスト精度を近似する。
SGULは、インダクティブ設定とトランスダクティブ設定の両方において、既存のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-03-23T20:35:03Z) - FW-Shapley: Real-time Estimation of Weighted Shapley Values [21.562508939780532]
我々は、重み付きシェープリー値を効率的に計算するアモータイズされたフレームワークであるFast Weighted Shapleyを提案する。
また,本実験では,基礎的真理重み付きシェープリー値を使用しなくても,理論的に有効であることを示す。
データバリュエーションに関しては、最先端のKNN Shapleyに匹敵するものながら、はるかに高速(14倍)です。
論文 参考訳(メタデータ) (2025-03-09T13:13:14Z) - Efficient Data Shapley for Weighted Nearest Neighbor Algorithms [47.62605581521535]
WKNN-Shapleyは、重み付き$K$近辺アルゴリズム(WKNN-Shapley)のためのデータ共有の効率的な計算法である
我々は、WKNN-Shapleyの計算効率と、データ品質を非重み付きと比較した場合の優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-20T03:34:18Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation [23.646508094051768]
我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインを定量化する問題を考える。
Shapleyの値は、その正式な公理的正当化のためにデータセットのバリュエーションを実行する自然なツールである。
本稿では,離散一様分布下での予測として表現される離散一様シャプリーと呼ばれる新しい近似を提案する。
論文 参考訳(メタデータ) (2023-06-03T10:22:50Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - KRLS: Improving End-to-End Response Generation in Task Oriented Dialog
with Reinforced Keywords Learning [25.421649004269373]
タスク指向ダイアログ(TOD)では、強化学習アルゴリズムがタスク関連メトリクスの応答を直接最適化するためにモデルを訓練する。
オフライン環境でのTOD性能を改善するために,より効率的なRLベースのアルゴリズムを提案する。
MultiWoZデータセットの実験では、我々の新しいトレーニングアルゴリズムであるKeywords Reinforcement Learning with Next-word Smpling (KRLS)が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-11-30T06:27:46Z) - CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification [24.44357623723746]
CS-Shapleyは,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数である。
我々の結果は、Shapleyベースのデータバリュエーションは、異なるモデルにわたるアプリケーションに転送可能であることを示唆している。
論文 参考訳(メタデータ) (2022-11-13T03:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。