論文の概要: Context Attribution with Multi-Armed Bandit Optimization
- arxiv url: http://arxiv.org/abs/2506.19977v1
- Date: Tue, 24 Jun 2025 19:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.524762
- Title: Context Attribution with Multi-Armed Bandit Optimization
- Title(参考訳): Multi-Armed Bandit Optimization を用いたコンテキスト属性
- Authors: Deng Pan, Keerthiram Murugesan, Nuno Moniz, Nitesh Chawla,
- Abstract要約: 本稿では,コンテキスト属性をCMAB(Multi-armed bandit)問題として定式化する新しいフレームワークを提案する。
我々は、限られたクエリ予算の下で、指数的に大きなコンテキストサブセットの空間を効率的に探索するために、 Combinatorial Thompson Sampling (CTS) を採用している。
本手法は,正規化トークンの確率に基づいて報酬関数を定義し,セグメントのサブセットが元のモデル応答をどれだけうまくサポートしているかを抽出する。
- 参考スコア(独自算出の注目度): 11.715006981206844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding which parts of the retrieved context contribute to a large language model's generated answer is essential for building interpretable and trustworthy generative QA systems. We propose a novel framework that formulates context attribution as a combinatorial multi-armed bandit (CMAB) problem. Each context segment is treated as a bandit arm, and we employ Combinatorial Thompson Sampling (CTS) to efficiently explore the exponentially large space of context subsets under a limited query budget. Our method defines a reward function based on normalized token likelihoods, capturing how well a subset of segments supports the original model response. Unlike traditional perturbation-based attribution methods such as SHAP, which sample subsets uniformly and incur high computational costs, our approach adaptively balances exploration and exploitation by leveraging posterior estimates of segment relevance. This leads to substantially improved query efficiency while maintaining high attribution fidelity. Extensive experiments on diverse datasets and LLMs demonstrate that our method achieves competitive attribution quality with fewer model queries.
- Abstract(参考訳): 検索した文脈のどの部分が大きな言語モデルの生成した答えに寄与しているかを理解することは、解釈可能で信頼できる生成可能なQAシステムを構築するのに不可欠である。
本稿では,CMAB問題としてコンテキスト属性を定式化する新しい枠組みを提案する。
それぞれのコンテキストセグメントはバンドアームとして扱われ、限られたクエリ予算の下で、指数的に大きなコンテキストサブセットの空間を効率的に探索するために Combinatorial Thompson Sampling (CTS) を用いています。
本手法は,正規化トークンの確率に基づいて報酬関数を定義し,セグメントのサブセットが元のモデル応答をどれだけうまくサポートしているかを抽出する。
部分集合を一様かつ高い計算コストでサンプリングするSHAPのような従来の摂動型帰属法とは異なり,本手法はセグメント関係の後方推定を利用して探索と利用を適応的にバランスさせる。
これにより、高い属性の忠実さを維持しながら、クエリ効率が大幅に向上する。
多様なデータセットとLLMの広範な実験により,本手法は,より少ないモデルクエリで競合属性の品質を達成できることを示した。
関連論文リスト
- Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。
我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。
提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-04-15T17:35:56Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - SEER : A Knapsack approach to Exemplar Selection for In-Context HybridQA [1.0323063834827413]
本稿では,ハイブリッド推論(SEER)のためのサンプルの選択について述べる。
SEERの有効性はFinQAとTAT-QAで実証されている。
論文 参考訳(メタデータ) (2023-10-10T14:50:20Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Distributed Stochastic Bandit Learning with Context Distributions [0.0]
本研究では,未知のコンテキストを持つ分散マルチアームコンテキスト帯域幅の問題について検討する。
本モデルでは, エージェントはコンテキスト分布のみを観察し, エージェントに正確なコンテキストが不明である。
我々のゴールは、累積報酬を最大化するために最適な行動列を選択する分散アルゴリズムを開発することである。
論文 参考訳(メタデータ) (2022-07-28T22:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。