論文の概要: One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement
- arxiv url: http://arxiv.org/abs/2604.25444v1
- Date: Tue, 28 Apr 2026 09:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.806574
- Title: One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement
- Title(参考訳): One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement
- Authors: Yixiao Zhou, Dongzhou Cheng, zhiliang wu, Yi Yang, Yu Cheng, Hehe Fan,
- Abstract要約: 大きな言語モデル(LLM)は、しばしば潜伏する推論機能を利用することができない。
本稿では推論時間アライメントタスクとして推論誘発を扱うモジュラーフレームワークReQueRを提案する。
- 参考スコア(独自算出の注目度): 37.27419953581617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often fail to utilize their latent reasoning capabilities due to a distributional mismatch between ambiguous human inquiries and the structured logic required for machine activation. Existing alignment methods either incur prohibitive $O(N)$ costs by fine-tuning each model individually or rely on static prompts that fail to resolve query-level structural complexity. In this paper, we propose ReQueR (\textbf{Re}inforcement \textbf{Que}ry \textbf{R}efinement), a modular framework that treats reasoning elicitation as an inference-time alignment task. We train a specialized Refiner policy via Reinforcement Learning to rewrite raw queries into explicit logical decompositions, treating frozen LLMs as the environment. Rooted in the classical Zone of Proximal Development from educational psychology, we introduce the Adaptive Solver Hierarchy, a curriculum mechanism that stabilizes training by dynamically aligning environmental difficulty with the Refiner's evolving competence. ReQueR yields consistent absolute gains of 1.7\%--7.2\% across diverse architectures and benchmarks, outperforming strong baselines by 2.1\% on average. Crucially, it provides a promising paradigm for one-to-many inference-time reasoning elicitation, enabling a single Refiner trained on a small set of models to effectively unlock reasoning in diverse unseen models. Code is available at https://github.com/newera-xiao/ReQueR.
- Abstract(参考訳): 大型言語モデル(LLM)は、曖昧な人間の問合せと機械のアクティベーションに必要な構造化論理との分散ミスマッチのため、その潜在推論能力の活用に失敗することが多い。
既存のアライメント手法では、各モデルを個別に微調整するか、クエリレベルの構造的な複雑さを解決できない静的なプロンプトに依存している。
本稿では、推論時間アライメントタスクとして推論帰納処理を扱うモジュラーフレームワークであるReQueR(\textbf{Re}inforcement \textbf{Que}ry \textbf{R}efinement)を提案する。
我々は、Reinforcement Learningを介して特別なRefinerポリシーをトレーニングし、生のクエリを明示的な論理分解に書き換え、凍結LDMを環境として扱う。
教育心理学から先進開発ゾーンに根ざしたアダプティブソルバー階層(Adaptive Solver Hierarchy)は,環境問題とRefinerの進化する能力とを動的に整合させることで,トレーニングを安定化するカリキュラム機構である。
ReQueR は様々なアーキテクチャやベンチマークで 1.7 %--7.2 % の絶対的なゲインを得る。
重要な点として、これは1対多の推論時間推論の導出のための有望なパラダイムを提供し、小さなモデルのセットでトレーニングされた単一のRefinerが、さまざまな目に見えないモデルの推論を効果的にアンロックすることを可能にする。
コードはhttps://github.com/newera-xiao/ReQueR.comで入手できる。
関連論文リスト
- STRIDE: Strategic Iterative Decision-Making for Retrieval-Augmented Multi-Hop Question Answering [9.69666629029613]
マルチホップ質問応答 (MHQA) は、複数の文書にまたがる証拠を検索し、推論することで、複雑なクエリに対する正確な回答を可能にする。
既存のMHQAアプローチは主に、次の2つの大きな問題に苦しむ反復的な検索強化世代に依存している。
戦略計画,動的制御,接地型実行を分離するフレームワークSTRIDEを提案する。
論文 参考訳(メタデータ) (2026-04-19T12:19:43Z) - PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - Reinforcing Structured Chain-of-Thought for Video Understanding [49.3086326382764]
概要駆動強化学習(SDRL)を紹介する。
SDRLは、Supervised Fine-Tuning (SFT)の必要性を回避したシングルステージのRLフレームワークである。
提案手法は、7つの公開ビデオQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2026-03-26T22:11:14Z) - AgenticRS-EnsNAS: Ensemble-Decoupled Self-Evolving Architecture Search [10.111487060179252]
この記事では、Ensemble-Decoupled Architecture Searchを紹介します。
シングルラーナー評価からシステムレベルの性能を予測する。
候補毎の検索コストをO(M)からO(1)に削減し、O(M)のデプロイメントコストは評価された勝者に限られる。
論文 参考訳(メタデータ) (2026-03-20T14:57:15Z) - When should I search more: Adaptive Complex Query Optimization with Reinforcement Learning [26.489185170468062]
適応複雑クエリ最適化(ACQO)と呼ばれる新しいRLフレームワークを提案する。
我々のフレームワークは、いつ、どのように検索プロセスを拡張するかを適応的に決定するように設計されている。
ACQOは3つの複雑なクエリベンチマークで最先端のパフォーマンスを達成し、確立されたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-29T03:16:53Z) - R^3: Replay, Reflection, and Ranking Rewards for LLM Reinforcement Learning [32.16683059021539]
大規模推論モデル(LRM)は、構造化推論によって多様で複雑な問題を解くことを目的としている。
グループベースの政策最適化手法の最近の進歩は、プロセスレベルのアノテーションに頼らず、安定した優位性推定を可能にすることを約束している。
本報告では,(1)群内優位性を維持するEmphcross-context underlinetextbfReplay戦略,(2)emphin-context self-underlinetextbfReflectionメカニズムの3つの方向に沿った強化学習機構を提案する。
論文 参考訳(メタデータ) (2026-01-27T13:55:34Z) - MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。