論文の概要: SEM: Reinforcement Learning for Search-Efficient Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07903v1
- Date: Mon, 12 May 2025 09:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.275372
- Title: SEM: Reinforcement Learning for Search-Efficient Large Language Models
- Title(参考訳): SEM:検索効率の良い大規模言語モデルのための強化学習
- Authors: Zeyang Sha, Shiwen Cui, Weiqiang Wang,
- Abstract要約: 大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
- 参考スコア(独自算出の注目度): 26.075903427834838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models(LLMs) have demonstrated their capabilities not only in reasoning but also in invoking external tools, particularly search engines. However, teaching models to discern when to invoke search and when to rely on their internal knowledge remains a significant challenge. Existing reinforcement learning approaches often lead to redundant search behaviors, resulting in inefficiencies and over-cost. In this paper, we propose SEM, a novel post-training reinforcement learning framework that explicitly trains LLMs to optimize search usage. By constructing a balanced dataset combining MuSiQue and MMLU, we create scenarios where the model must learn to distinguish between questions it can answer directly and those requiring external retrieval. We design a structured reasoning template and employ Group Relative Policy Optimization(GRPO) to post-train the model's search behaviors. Our reward function encourages accurate answering without unnecessary search while promoting effective retrieval when needed. Experimental results demonstrate that our method significantly reduces redundant search operations while maintaining or improving answer accuracy across multiple challenging benchmarks. This framework advances the model's reasoning efficiency and extends its capability to judiciously leverage external knowledge.
- Abstract(参考訳): LLM(Large Language Models)の最近の進歩は、推論だけでなく、外部ツール、特に検索エンジンの呼び出しにもその能力を実証している。
しかし、検索をいつ呼び出すか、いつ内部知識に頼るかをモデルに示すことは大きな課題である。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本稿では,学習後強化学習フレームワークであるSEMを提案する。
MuSiQueとMMLUを組み合わせたバランスの取れたデータセットを構築することで、モデルが直接答えられる質問と外部検索を必要とする質問を区別するために学習しなければならないシナリオを作成する。
構造的推論テンプレートを設計し,グループ相対ポリシー最適化(GRPO)を用いてモデルの探索動作のポストトレーニングを行う。
我々の報奨機能は、必要なときに有効な検索を推進しながら、不要な検索なしに正確な回答を促す。
実験の結果,提案手法は複数のベンチマークで解答精度を維持・改善しつつ,冗長な探索操作を著しく低減することが示された。
このフレームワークはモデルの推論効率を向上し、外部知識を司法的に活用する能力を拡張する。
関連論文リスト
- ZeroSearch: Incentivize the Search Capability of LLMs without Searching [50.75674978672403]
我々はZeroSearchを紹介した。ZeroSearchは大規模言語モデル(LLM)の検索機能を実際の検索エンジンと対話することなくインセンティブを与える強化学習フレームワークである。
提案手法は,LLMを関連文書とノイズ文書の両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [37.183397387416065]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文 参考訳(メタデータ) (2023-10-23T05:52:09Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。