Fugu-MT 論文翻訳(概要): Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers

論文の概要: Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers

arxiv url: http://arxiv.org/abs/2505.20128v1
Date: Mon, 26 May 2025 15:27:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.568391
Title: Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers
Title（参考訳）: エージェントサーチとして大規模言語モデルを活用する反復的自己インセンティブ化
Authors: Zhengliang Shi, Lingyong Yan, Dawei Yin, Suzan Verberne, Maarten de Rijke, Zhaochun Ren,
Abstract要約: 大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
参考スコア（独自算出の注目度）: 74.17516978246152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have been widely integrated into information retrieval to advance traditional techniques. However, effectively enabling LLMs to seek accurate knowledge in complex tasks remains a challenge due to the complexity of multi-hop queries as well as the irrelevant retrieved content. To address these limitations, we propose EXSEARCH, an agentic search framework, where the LLM learns to retrieve useful information as the reasoning unfolds through a self-incentivized process. At each step, the LLM decides what to retrieve (thinking), triggers an external retriever (search), and extracts fine-grained evidence (recording) to support next-step reasoning. To enable LLM with this capability, EXSEARCH adopts a Generalized Expectation-Maximization algorithm. In the E-step, the LLM generates multiple search trajectories and assigns an importance weight to each; the M-step trains the LLM on them with a re-weighted loss function. This creates a self-incentivized loop, where the LLM iteratively learns from its own generated data, progressively improving itself for search. We further theoretically analyze this training process, establishing convergence guarantees. Extensive experiments on four knowledge-intensive benchmarks show that EXSEARCH substantially outperforms baselines, e.g., +7.8% improvement on exact match score. Motivated by these promising results, we introduce EXSEARCH-Zoo, an extension that extends our method to broader scenarios, to facilitate future work.
Abstract（参考訳）: 大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。しかし,LLMが複雑なタスクにおいて正確な知識を求めるのを効果的に行うことは,マルチホップクエリの複雑化や,無関係な検索コンテンツのため,依然として課題である。これらの制約に対処するため,LLM が自己インセンティブ付きプロセスを通じて有用な情報を取得することを学習するエージェント検索フレームワーク EXSEARCH を提案する。それぞれのステップで、LCMは何を検索するか(思考)を決定し、外部レトリバー(探索)をトリガーし、次のステップの推論をサポートするためにきめ細かい証拠(記録)を抽出する。この能力でLLMを有効にするため、EXSEARCHは一般化期待最大化アルゴリズムを採用している。 Eステップでは、LLMは複数の探索軌跡を生成し、それぞれに重要な重みを割り当て、MステップはLLMを再重み付き損失関数で訓練する。これにより自己インセンティブ付きループが生成され、LLMは自身の生成されたデータから反復的に学習し、検索のために徐々に改善される。さらに、このトレーニングプロセスを理論的に分析し、収束保証を確立する。知識集約的な4つのベンチマークの大規模な実験により、EXSEARCHは、例えば、正確なマッチスコアの7.8%の改善など、ベースラインを大幅に上回っていることが示されている。これらの有望な結果に触発され,将来的な作業を容易にするための拡張であるEXSEARCH-Zooを紹介した。

関連論文リスト

KnowTrace: Bootstrapping Iterative Retrieval-Augmented Generation with Structured Knowledge Tracing [64.38243807002878]
我々は、大規模言語モデルにおけるコンテキスト過負荷を軽減するためのエレガントなRAGフレームワークであるKnowTraceを紹介する。 KnowTraceは、必要な知識三つ子を自律的に追跡して、入力された質問に関連する特定の知識グラフを整理する。 3つのマルチホップ質問応答ベンチマークで、既存のメソッドを一貫して上回っている。
論文参考訳（メタデータ） (2025-05-26T17:22:20Z)
StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization [14.931231544839687]
StepSearchは、ステップワイドなポリシー最適化手法でトレーニングされたLLMを検索するためのフレームワークである。情報ゲインと冗長性に基づく、より豊かでより詳細な中間探索報酬とトークンレベルのプロセス監視で構成されている。標準的なマルチホップQAベンチマークでは、グローバルリワードベースラインをはるかに上回り、3Bモデルと7Bモデルの11.2%と4.2%の絶対的な改善を達成した。
論文参考訳（メタデータ） (2025-05-21T05:01:31Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Dynamic Ensemble Reasoning for LLM Experts [35.774197263383996]
本研究では,動的入力を前提とした複数のLLMエキスパートの強みを統合するために,DERと呼ばれる動的アンサンブル推論パラダイムを提案する。提案手法では,最先端のベースラインに比べて計算資源が少ないため,性能が向上する。
論文参考訳（メタデータ） (2024-12-10T12:05:56Z)
LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文参考訳（メタデータ） (2024-04-22T09:56:59Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。