論文の概要: ParallelSearch: Train your LLMs to Decompose Query and Search Sub-queries in Parallel with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.09303v1
- Date: Tue, 12 Aug 2025 19:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.676879
- Title: ParallelSearch: Train your LLMs to Decompose Query and Search Sub-queries in Parallel with Reinforcement Learning
- Title(参考訳): ParallelSearch: 強化学習で並列でクエリとサブクエリを分解するためにLLMをトレーニングする
- Authors: Shu Zhao, Tan Yu, Anbang Xu, Japinder Singh, Aaditya Shukla, Rama Akkiraju,
- Abstract要約: Reasoning-augmented search agent as Search-R1は、外部知識ソースからの多段階情報検索において顕著な能力を示す。
既存のアプローチは、本質的に並列化可能で論理的に独立な比較を扱う場合でも、検索クエリを厳格に処理する。
並列化可能なクエリ構造を認識し,複数の検索操作を同時に実行する,大規模言語モデルを活用した新しい強化学習フレームワークであるParallelSearchを提案する。
- 参考スコア(独自算出の注目度): 20.11646932754985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-augmented search agents such as Search-R1, trained via reinforcement learning with verifiable rewards (RLVR), demonstrate remarkable capabilities in multi-step information retrieval from external knowledge sources. These agents address the limitations of their parametric memory by dynamically gathering relevant facts to address complex reasoning tasks. However, existing approaches suffer from a fundamental architectural limitation: they process search queries strictly sequentially, even when handling inherently parallelizable and logically independent comparisons. This sequential bottleneck significantly constrains computational efficiency, particularly for queries that require multiple entity comparisons. To address this critical limitation, we propose ParallelSearch, a novel reinforcement learning framework that empowers large language models (LLMs) to recognize parallelizable query structures and execute multiple search operations concurrently. Our approach introduces dedicated reward functions that incentivize the identification of independent query components while preserving answer accuracy through jointly considering correctness, query decomposition quality, and parallel execution benefits. Comprehensive experiments demonstrate that ParallelSearch outperforms state-of-the-art baselines by an average performance gain of 2.9% across seven question-answering benchmarks. Notably, on parallelizable questions, our method achieves a 12.7% performance improvement while requiring only 69.6% of the LLM calls compared to sequential approaches.
- Abstract(参考訳): Reasoning-augmented search agent such as Search-R1, training via reinforcement learning with verible rewards (RLVR)は、外部知識ソースからの多段階情報検索において顕著な能力を示す。
これらのエージェントは、複雑な推論タスクに対処するために、関連する事実を動的に収集することでパラメトリックメモリの限界に対処する。
しかし、既存のアプローチは、本質的に並列化可能で論理的に独立な比較を扱う場合でも、検索クエリを厳格に処理する、という基本的なアーキテクチャ上の制限に悩まされている。
このシーケンシャルなボトルネックは、特に複数のエンティティ比較を必要とするクエリに対して、計算効率を著しく制限する。
この限界に対処するため,並列化可能なクエリ構造を認識し,複数の検索操作を同時に実行する,大規模言語モデル(LLM)を活用した新しい強化学習フレームワークであるParallelSearchを提案する。
提案手法では,解答精度を維持しつつ,正しさ,クエリ分解品質,並列実行のメリットを共同で考慮しながら,独立した問合せコンポーネントの識別を動機付ける専用報酬関数を導入する。
総合的な実験によると、ParallelSearchは7つの問合せベンチマークで平均2.9%の性能向上により最先端のベースラインを上回っている。
特に並列化可能な質問では、逐次的なアプローチに比べて69.6%のLCM呼び出ししか必要とせず、12.7%の性能向上を実現している。
関連論文リスト
- Reinforcement Fine-Tuning for Reasoning towards Multi-Step Multi-Source Search in Large Language Models [7.719379471690927]
Reasoning-Search (R-Search)は、マルチステップ計画、複数ソース検索の実行、回答合成を統一するシングルLLM検索フレームワークである。
R-Searchは、検索プロセスを導く推論ステップを含む、明示的に定義された4つのコンポーネントに出力を構造化する。
論文 参考訳(メタデータ) (2025-06-10T02:09:57Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。
我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。
提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-04-15T17:35:56Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - LLM-assisted Vector Similarity Search [0.0]
本稿では,ベクトル類似性探索とLarge Language Models(LLMs)を組み合わせたハイブリッド手法を提案する。
構造化データセットの実験では、ベクトル類似性検索は単純なクエリに対してのみうまく機能するが、LLM支援アプローチは制約、否定、概念的な要求を含む複雑なクエリを処理するのに優れている。
論文 参考訳(メタデータ) (2024-12-25T08:17:37Z) - Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。