論文の概要: Search, Do not Guess: Teaching Small Language Models to Be Effective Search Agents
- arxiv url: http://arxiv.org/abs/2604.04651v1
- Date: Mon, 06 Apr 2026 13:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.195189
- Title: Search, Do not Guess: Teaching Small Language Models to Be Effective Search Agents
- Title(参考訳): Search, Don Not Guess: 小さな言語モデルに効果的な検索エージェントを指導する
- Authors: Yizhou Liu, Qi Sun, Yulin Chen, Siyue Zhang, Chen Zhao,
- Abstract要約: 大規模言語モデル(LLM)は強力な推論能力を示し、その高い計算コストは検索エージェントの実用的な展開を制限する。
パラメトリックな知識が少ないにもかかわらず、SLM(Small Language Models)は検索ツールの呼び出し頻度が低く、幻覚の傾向が強いことが判明した。
提案手法は,SLMに対して,検索された証拠に埋もれた回答を確実に回収・生成するように指示する,軽量な微調整手法である。
- 参考スコア(独自算出の注目度): 26.112172869788846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents equipped with search tools have emerged as effective solutions for knowledge-intensive tasks. While Large Language Models (LLMs) exhibit strong reasoning capabilities, their high computational cost limits practical deployment for search agents. Consequently, recent work has focused on distilling agentic behaviors from LLMs into Small Language Models (SLMs). Through comprehensive evaluation on complex multi-hop reasoning tasks, we find that despite possessing less parametric knowledge, SLMs invoke search tools less frequently and are more prone to hallucinations. To address this issue, we propose \policy, a lightweight fine-tuning approach that explicitly trains SLMs to reliably retrieve and generate answers grounded in retrieved evidence. Compared to agent distillation from LLMs, our approach improves performance by 17.3 scores on Bamboogle and 15.3 scores on HotpotQA, achieving LLM-level results across benchmarks. Our further analysis reveals that adaptive search strategies in SLMs often degrade performance, highlighting the necessity of consistent search behavior for reliable reasoning.
- Abstract(参考訳): 知識集約型タスクの効果的なソリューションとして,検索ツールを備えたエージェントが登場している。
LLM(Large Language Models)は強力な推論能力を持つが、その高い計算コストは検索エージェントの実用的な展開を制限する。
その結果、最近の研究は、LLMからSmall Language Models (SLM)へのエージェント的挙動の蒸留に重点を置いている。
複雑なマルチホップ推論タスクの包括的評価により、パラメトリックな知識が低いにもかかわらず、SLMは検索ツールの呼び出し頻度が低く、幻覚の傾向が強いことがわかった。
この問題に対処するため,我々は軽量な微調整手法である \policy を提案する。
LLMの蒸留と比較すると,Bamboogleで17.3,HotpotQAで15.3,ベンチマークでLLMレベルの結果が得られる。
さらに分析した結果,SLMにおける適応探索戦略は性能を劣化させることが多く,信頼性の高い推論のための一貫した探索動作の必要性が浮き彫りにされている。
関連論文リスト
- Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning [23.104182075898297]
Reasoning-augmented search agent, such as Search-R1, are trained to reason, search, and generate the final answer repeateratively。
我々は、強化学習によるクエリ拡張のネイティブ機能を備えたLLMベースの検索エージェントを訓練する。
シュレッシャーモデルの助けを借りて,小型の3B LLMでもクエリ拡張の強力な能力を実証できることが判明した。
論文 参考訳(メタデータ) (2025-10-11T04:23:30Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Enhancing LLMs' Reasoning-Intensive Multimedia Search Capabilities through Fine-Tuning and Reinforcement Learning [6.327006563699527]
本稿では,大規模言語モデル(LLM)駆動検索エージェントのトレーニング手法であるSearchExpertを紹介する。
我々は、トークン消費を減らすために、効率的な自然言語表現で探索計画を再構築する。
推論集約的な探索能力を向上させるために,探索フィードバックからの強化学習を提案する。
論文 参考訳(メタデータ) (2025-05-24T19:00:36Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。
GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文 参考訳(メタデータ) (2025-03-13T03:40:50Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。