論文の概要: AI-SearchPlanner: Modular Agentic Search via Pareto-Optimal Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.20368v3
- Date: Tue, 09 Sep 2025 06:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.771749
- Title: AI-SearchPlanner: Modular Agentic Search via Pareto-Optimal Multi-Objective Reinforcement Learning
- Title(参考訳): AI-SearchPlanner:Pareto-Optimal Multi-Objective Reinforcement Learningによるモジュールエージェント検索
- Authors: Lang Mei, Zhihan Yang, Chong Chen,
- Abstract要約: 探索計画に着目し,凍結QAモデルの性能向上を目的とした新しい強化学習フレームワークである textbfAI-SearchPlanner を提案する。
実世界のデータセットの実験では、AI SearchPlannerが既存のRLベースの検索エージェントを効率と効率の両方で上回っていることが示されている。
- 参考スコア(独自算出の注目度): 7.913125061214038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have explored integrating Large Language Models (LLMs) with search engines to leverage both the LLMs' internal pre-trained knowledge and external information. Specially, reinforcement learning (RL) has emerged as a promising paradigm for enhancing LLM reasoning through multi-turn interactions with search engines. However, existing RL-based search agents rely on a single LLM to handle both search planning and question-answering (QA) tasks in an end-to-end manner, which limits their ability to optimize both capabilities simultaneously. In practice, sophisticated AI search systems often employ a large, frozen LLM (e.g., GPT-4, DeepSeek-R1) to ensure high-quality QA. Thus, a more effective and efficient approach is to utilize a small, trainable LLM dedicated to search planning. In this paper, we propose \textbf{AI-SearchPlanner}, a novel reinforcement learning framework designed to enhance the performance of frozen QA models by focusing on search planning. Specifically, our approach introduces three key innovations: 1) Decoupling the Architecture of the Search Planner and Generator, 2) Dual-Reward Alignment for Search Planning, and 3) Pareto Optimization of Planning Utility and Cost, to achieve the objectives. Extensive experiments on real-world datasets demonstrate that AI SearchPlanner outperforms existing RL-based search agents in both effectiveness and efficiency, while exhibiting strong generalization capabilities across diverse frozen QA models and data domains.
- Abstract(参考訳): 近年,LLMの内部学習知識と外部情報の両方を活用するために,Large Language Models (LLM) と検索エンジンの統合について検討している。
特に、強化学習(RL)は、検索エンジンとのマルチターンインタラクションを通じてLLM推論を強化するための有望なパラダイムとして登場した。
しかし、既存のRLベースの検索エージェントは、検索計画と質問応答(QA)タスクの両方をエンドツーエンドで処理するために、1つのLLMに依存しているため、両方の機能を同時に最適化する能力は制限される。
実際には、高度なAI検索システムは、高品質なQAを保証するために、大きな凍結LDM(例えば、GPT-4、DeepSeek-R1)を使用することが多い。
したがって、より効果的かつ効率的なアプローチは、探索計画専用の小型で訓練可能なLLMを使用することである。
本稿では,冷凍QAモデルの性能向上を目的とした新しい強化学習フレームワークである「textbf{AI-SearchPlanner}」を提案する。
具体的には、私たちのアプローチには3つの重要なイノベーションがあります。
1)検索プランナーとジェネレータのアーキテクチャの分離
2 探索計画のための二重逆アライメント及び
3 目的を達成するため、計画ユーティリティ及びコストのパレート最適化
実世界のデータセットに関する大規模な実験は、AI SearchPlannerが既存のRLベースの検索エージェントを効率と効率の両方で上回り、多様な凍結QAモデルとデータドメインにまたがる強力な一般化能力を示していることを示している。
関連論文リスト
- Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models [11.39711340224126]
Search-R3は、Large Language Modelsを適用して、彼らの推論プロセスの直接出力として検索埋め込みを生成する新しいフレームワークである。
我々のアプローチはLLMのチェーン・オブ・シント機能を利用しており、複雑な意味解析を通じてステップ・バイ・ステップを推論することでより効果的な埋め込みを実現できる。
論文 参考訳(メタデータ) (2025-10-08T14:16:20Z) - DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling [56.45844907505722]
二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
論文 参考訳(メタデータ) (2025-09-07T13:45:09Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning [0.8388591755871735]
R-SearchはReasoning-Search統合のための強化学習フレームワークである。
ディープ・サーチ・インタラクションを伴う多段階推論を自律的に実行するために,大規模言語モデルを誘導する。
R-Searchは,マルチリワード信号による最適推論探索軌跡を学習する。
論文 参考訳(メタデータ) (2025-06-04T17:29:22Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。