論文の概要: Context-Picker: Dynamic context selection using multi-stage reinforcement learning
- arxiv url: http://arxiv.org/abs/2512.14465v1
- Date: Tue, 16 Dec 2025 14:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.753907
- Title: Context-Picker: Dynamic context selection using multi-stage reinforcement learning
- Title(参考訳): コンテキストピッカー:多段階強化学習を用いた動的文脈選択
- Authors: Siyuan Zhu, Chengdong Xu, Kaiqiang Ke, Chao Yu,
- Abstract要約: 長文質問応答のための推論対応フレームワークであるemphContext-Pickerを紹介した。
Context-Pickerはコンテキスト選択を、人間にインスパイアされた2段階の強化学習スケジュールを通じて最適化された意思決定プロセスとして扱う。
5つの長コンテキストおよびマルチホップQAベンチマークの実験は、Context-Pickerが強力なRAGベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 4.539896456749749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In long-context question answering (LCQA), determining the optimal amount of context for a given query is a significant challenge. Including too few passages may omit critical information, while including too many can introduce noise and reduce the quality of the answer. Traditional approaches, such as fixed Top-$K$ retrieval and single-stage reranking, face the dilemma of selecting the right number of passages. This problem is particularly pronounced for factoid questions, which often require only a few specific pieces of evidence. To address this issue, we introduce \emph{Context-Picker}, a reasoning-aware framework that shifts the paradigm from similarity-based ranking to minimal sufficient subset selection. Context-Picker treats context selection as a decision-making process optimized via a human-inspired, two-stage reinforcement learning schedule: a \emph{recall-oriented} stage that prioritizes the coverage of reasoning chains, followed by a \emph{precision-oriented} stage that aggressively prunes redundancy to distill a compact evidence set. To resolve reward sparsity, we propose an offline evidence distillation pipeline that mines "minimal sufficient sets" via a Leave-One-Out (LOO) procedure, providing dense, task-aligned supervision. Experiments on five long-context and multi-hop QA benchmarks demonstrate that Context-Picker significantly outperforms strong RAG baselines, achieving superior answer accuracy with comparable or reduced context lengths. Ablation studies indicate that the coarse-to-fine optimization schedule, the redundancy-aware reward shaping, and the rationale-guided format all contribute substantially to these gains.
- Abstract(参考訳): 長文質問応答(LCQA)では、与えられたクエリに対して最適なコンテキスト量を決定することが大きな課題である。
通過が少なすぎると重要な情報が省略され、ノイズが多すぎると答えの品質が低下する。
固定されたTop-K$検索やシングルステージ再ランクのような伝統的なアプローチは、正しいパス数を選択するジレンマに直面している。
この問題はファクトイドの問題に対して特に顕著であり、しばしばいくつかの特定の証拠しか必要としない。
この問題に対処するために,類似度に基づくランク付けから,最小限のサブセット選択にパラダイムをシフトする推論対応フレームワークである \emph{Context-Picker} を紹介した。
Context-Pickerはコンテキスト選択を、人間にインスパイアされた2段階の強化学習スケジュールによって最適化された意思決定プロセスとして扱う:推論チェーンのカバレッジを優先する \emph{recall-oriented} ステージ、続いて、冗長性を積極的に引き起こしてコンパクトなエビデンスセットを蒸留する \emph{precision-oriented} ステージである。
そこで本稿では,LOO (Leave-One-Out) 手法を用いて「最小限の十分な集合」をマイニングし,密集したタスクアラインな監視を行うオフラインエビデンス蒸留パイプラインを提案する。
5つの長コンテキストおよびマルチホップQAベンチマークの実験により、Context-Pickerは強力なRAGベースラインを著しく上回り、コンテクスト長と縮小したコンテクスト長で優れた回答精度を達成することが示された。
アブレーション研究は, 粗大な最適化スケジュール, 冗長性を考慮した報酬形成, 合理的誘導形式が, いずれもこれらの利得に大きく寄与していることを示している。
関連論文リスト
- Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models [64.49342399229529]
我々は、ポストホック帰属を推論問題として再編成し、回答を構成単位に分解し、それぞれ特定の文脈に結び付けることができると論じる。
DecompTuneは、モデルに中間的推論ステップとして解解分解を生成することを教えるポストトレーニング手法である。
DecompTuneは、広範な実験と改善を通じて、属性の品質を大幅に改善し、先行手法より優れ、最先端のフロンティアモデルに適合または超えている。
論文 参考訳(メタデータ) (2025-10-29T17:58:59Z) - Resource-Friendly Dynamic Enhancement Chain for Multi-Hop Question Answering [21.077964610022313]
この研究はDEC(Dynamic Enhancement Chain)と呼ばれる新しいフレームワークを提案する。
DECはまず複雑な質問を論理的に一貫性のあるサブクエストに分解し、幻覚のない推論連鎖を形成する。
その後、コンテキスト対応の書き換えによってこれらのサブクエストを反復的に洗練し、効率的なクエリの定式化を生成する。
論文 参考訳(メタデータ) (2025-06-21T11:55:27Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - QA-prompting: Improving Summarization with Large Language Models using Question-Answering [0.8460698440162888]
言語モデル(LM)は自然言語処理に革命をもたらし、プロンプトやテキスト内学習を通じて高品質なテキスト生成を可能にした。
本稿では,質問応答を要約生成の中間段階として利用する要約の簡易なプロンプト手法であるQA-promptingを提案する。
提案手法はキー情報を抽出し,テキストのコンテキストを強化して位置バイアスを緩和し,タスク毎の単一LMコールにおける要約を改善する。
論文 参考訳(メタデータ) (2025-05-20T13:29:36Z) - Options-Aware Dense Retrieval for Multiple-Choice query Answering [5.098112872671412]
長文複数選択質問応答タスクは、広範囲なテキストソースに対して頑健な推論を必要とする。
この領域における先行研究は、主に事前訓練された高密度検索モデルを利用している。
本稿では,これらの課題に対処するため,OADR (Options Aware Dense Retrieval) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T15:03:26Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。