論文の概要: SmartSearch: Process Reward-Guided Query Refinement for Search Agents
- arxiv url: http://arxiv.org/abs/2601.04888v1
- Date: Thu, 08 Jan 2026 12:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.201976
- Title: SmartSearch: Process Reward-Guided Query Refinement for Search Agents
- Title(参考訳): SmartSearch: 検索エージェントのためのプロセスリワード型クエリリファインメント
- Authors: Tongyu Wen, Guanting Dong, Zhicheng Dou,
- Abstract要約: 大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。
既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。
この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
- 参考スコア(独自算出の注目度): 63.46067892354375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based search agents have proven promising for addressing knowledge-intensive problems by incorporating information retrieval capabilities. Existing works largely focus on optimizing the reasoning paradigms of search agents, yet the quality of intermediate search queries during reasoning remains overlooked. As a result, the generated queries often remain inaccurate, leading to unexpected retrieval results and ultimately limiting search agents' overall effectiveness. To mitigate this issue, we introduce SmartSearch, a framework built upon two key mechanisms: (1) Process rewards, which provide fine-grained supervision for the quality of each intermediate search query through Dual-Level Credit Assessment. (2) Query refinement, which promotes the optimization of query generation by selectively refining low-quality search queries and regenerating subsequent search rounds based on these refinements. To enable the search agent to progressively internalize the ability to improve query quality under the guidance of process rewards, we design a three-stage curriculum learning framework. This framework guides the agent through a progression from imitation, to alignment, and ultimately to generalization. Experimental results show that SmartSearch consistently surpasses existing baselines, and additional quantitative analyses further confirm its significant gains in both search efficiency and query quality. The code is available at https://github.com/MYVAE/SmartSearch.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく探索エージェントは,情報検索機能を組み込むことで,知識集約的な問題に対処する上で有望であることが証明されている。
既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。
その結果、生成したクエリはしばしば不正確なままであり、予期せぬ検索結果をもたらし、最終的には検索エージェントの全体的な有効性を制限した。
この問題を軽減するために,我々は,(1)プロセス報酬(Process rewards)という2つの主要なメカニズムに基づいて構築されたSmartSearchを紹介した。
2)低品質検索クエリを選択的に精錬し,検索ラウンドを再生することでクエリ生成の最適化を促進するクエリ改善。
プロセス報酬の指導の下で、検索エージェントがクエリ品質を向上させる能力を徐々に内部化できるように、3段階のカリキュラム学習フレームワークを設計する。
このフレームワークは、エージェントを模倣からアライメント、究極的には一般化へと進化させる。
実験の結果,SmartSearchは既存のベースラインを一貫して上回り,検索効率とクエリ品質の両方において,さらなる定量的分析により大きな向上が確認された。
コードはhttps://github.com/MYVAE/SmartSearchで入手できる。
関連論文リスト
- Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning [61.974530499621274]
検索への過度な依存は、ノイズや悪意のあるコンテンツに対する不必要なコストとリスクをもたらす。
本稿では,探索を起動するか否かの判断から問題を解き放つ2段階の結果駆動型RLフレームワークを提案する。
AdaSearchは知識境界認識を大幅に改善し、不要な検索コールを削減し、タスクパフォーマンスを強く保ち、透明性と解釈可能な意思決定行動を提供する。
論文 参考訳(メタデータ) (2025-12-18T18:50:01Z) - Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning [23.104182075898297]
Reasoning-augmented search agent, such as Search-R1, are trained to reason, search, and generate the final answer repeateratively。
我々は、強化学習によるクエリ拡張のネイティブ機能を備えたLLMベースの検索エージェントを訓練する。
シュレッシャーモデルの助けを借りて,小型の3B LLMでもクエリ拡張の強力な能力を実証できることが判明した。
論文 参考訳(メタデータ) (2025-10-11T04:23:30Z) - Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-10-06T11:09:45Z) - RAVine: Reality-Aligned Evaluation for Agentic Search [7.4420114967110385]
RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。
RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。
RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
論文 参考訳(メタデータ) (2025-07-22T16:08:12Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [71.88883580383039]
コード生成の推論プロセスを探求し、洗練するフレームワークであるRethinkMCTSを提案する。
具体的には、コード生成前の思考の検索にMCTSを使用し、再考と呼ばれる改善メカニズムをMCTSに統合する。
RethinkMCTSは、従来の検索ベースおよびフィードバック強化コード生成ベースラインよりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-09-15T02:07:28Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。