論文の概要: SubSearch: Intermediate Rewards for Unsupervised Guided Reasoning in Complex Retrieval
- arxiv url: http://arxiv.org/abs/2604.07415v1
- Date: Wed, 08 Apr 2026 13:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.461835
- Title: SubSearch: Intermediate Rewards for Unsupervised Guided Reasoning in Complex Retrieval
- Title(参考訳): SubSearch: 複雑な検索における教師なしガイド推論の中間的リワード
- Authors: Roxana Petcu, Evangelos Kanoulas, Maarten de Rijke,
- Abstract要約: SubSearchは、結果のみの監視から中間報酬信号に移行する特殊なフレームワークである。
実験により、本質的な報酬を伴う中間的推論ステップの報酬はより堅牢な推論トレースをもたらすことが示された。
SubSearchは、複雑なクエリ応答のための検索エンジンをよりよく統合できる推論トレースを構築するのに役立つ。
- 参考スコア(独自算出の注目度): 61.73547199231695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are probabilistic in nature and perform more reliably when augmented with external information. As complex queries often require multi-step reasoning over the retrieved information, with no clear or predetermined reasoning path, they remain challenging. Recent approaches train models using reinforcement learning on the model's outcome, showing promise in improving how models handle complex information. We introduce SubSearch, a specialized framework that shifts from outcome-only supervision to intermediate reward signals that incentivize planning high-quality reasoning. Unlike previous work on process reward modeling, which focuses on training a separate reward model with annotated trajectories by either human annotators or large LLM judges, SubSearch directly optimizes the generator using intrinsic process rewards, which we define as internally-derived rewards, eliminating the need for external supervision, and moving towards autonomous information-intensive reasoning. Experiments on seven benchmarks show that rewarding intermediate reasoning steps with intrinsic rewards leads to more robust reasoning traces in both QA and multi-hop QA datasets over using only outcome rewards. SubSearch can help in building reasoning traces that allow agents to better integrate search engines for complex query answering, while offering a data-efficient alternative to supervised process modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)は本質的に確率的であり、外部情報で拡張するとより確実に機能する。
複雑なクエリは、取得した情報に対して多段階の推論を必要とすることが多く、明確な推論経路や所定の推論経路が存在しないため、それらが困難なままである。
最近のアプローチでは、モデルの結果に基づいて強化学習を使用してモデルをトレーニングし、モデルが複雑な情報を扱う方法を改善することを約束している。
結果のみの監視から,高品質な推論計画にインセンティブを与える中間報酬信号にシフトする,特別なフレームワークであるSubSearchを紹介する。
従来のプロセス報酬モデリングとは違って,人間のアノテーションやLLM判事による注釈付き軌道を用いた個別の報酬モデルのトレーニングは,内在的なプロセス報酬を用いたジェネレータを直接最適化し,外部監視の必要性を排除し,自律的な情報集約的推論へと移行する。
7つのベンチマークの実験から、本質的な報酬を伴う中間推論ステップの報酬は、結果報酬のみを使用するよりも、QAデータセットとマルチホップQAデータセットの両方においてより堅牢な推論トレースにつながることが示されている。
SubSearchは、エージェントが複雑なクエリ応答のための検索エンジンをよりうまく統合できるように、推論トレースを構築するのに役立つと同時に、教師付きプロセスモデリングに代わるデータ効率の代替手段を提供する。
関連論文リスト
- Learning to Retrieve from Agent Trajectories [72.8923565916533]
我々はエージェント間相互作用データから直接エージェント探索のための検索モデルを訓練すべきであると主張している。
エージェント・トラジェクトリからの学習を新たな訓練パラダイムとして導入し,マルチステップエージェントのインタラクションから指導を導出する。
本研究は,エージェント探索時代における検索の方向性を示すとともに,エージェントトラジェクトリを実用的でスケーラブルな監視源として強調するものである。
論文 参考訳(メタデータ) (2026-03-30T17:59:02Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。