論文の概要: Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty
- arxiv url: http://arxiv.org/abs/2505.17281v1
- Date: Thu, 22 May 2025 20:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.691781
- Title: Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty
- Title(参考訳): Search Wisely:不確かさを減らして最適なエージェント検索を減らす
- Authors: Peilin Wu, Mian Zhang, Xinlu Zhang, Xinya Du, Zhiyu Zoey Chen,
- Abstract要約: エージェント検索型Augmented Generation (RAG) システムは,動的かつ多段階の推論と情報検索を可能にし,Large Language Models (LLM) を強化する。
これらのシステムは、オーバーサーチ(冗長な情報を取得する)やアンダーサーチ(必要な情報を取得するのに失敗する)のような準最適探索行動を示すことが多い。
この研究は、これらの振る舞いを公式に定義し、定量化し、複数のQAデータセットとエージェントRAGシステムにまたがるそれらの頻度を明らかにする。
- 参考スコア(独自算出の注目度): 15.97218000282262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Agentic Retrieval-Augmented Generation (RAG) systems enhance Large Language Models (LLMs) by enabling dynamic, multi-step reasoning and information retrieval. However, these systems often exhibit sub-optimal search behaviors like over-search (retrieving redundant information) and under-search (failing to retrieve necessary information), which hinder efficiency and reliability. This work formally defines and quantifies these behaviors, revealing their prevalence across multiple QA datasets and agentic RAG systems (e.g., one model could have avoided searching in 27.7% of its search steps). Furthermore, we demonstrate a crucial link between these inefficiencies and the models' uncertainty regarding their own knowledge boundaries, where response accuracy correlates with model's uncertainty in its search decisions. To address this, we propose $\beta$-GRPO, a reinforcement learning-based training method that incorporates confidence threshold to reward high-certainty search decisions. Experiments on seven QA benchmarks show that $\beta$-GRPO enable a 3B model with better agentic RAG ability, outperforming other strong baselines with a 4% higher average exact match score.
- Abstract(参考訳): エージェント検索型Augmented Generation (RAG) システムは,動的かつ多段階の推論と情報検索を可能にし,Large Language Models (LLM) を強化する。
しかし、これらのシステムは、過剰検索(冗長な情報を取得する)やアンダーサーチ(必要な情報を取得するのに失敗)のような準最適探索行動を示すことが多く、効率と信頼性を損なう。
この研究は、これらの振る舞いを公式に定義し、定量化し、複数のQAデータセットとエージェントRAGシステムにまたがる頻度を明らかにする(例えば、あるモデルは探索ステップの27.7%で探索を避けたかもしれない)。
さらに,これらの非効率性とモデルの知識境界に関する不確実性との間には,応答精度がモデルの不確実性と関連していることを示す。
これを解決するために,信頼性閾値を組み込んだ強化学習に基づくトレーニング手法である$\beta$-GRPOを提案する。
7つのQAベンチマークでの実験では、$\beta$-GRPOはエージェントRAG能力を向上した3Bモデルを可能にし、平均一致スコアが4%高い他の強いベースラインを上回っている。
関連論文リスト
- Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - Demystifying and Enhancing the Efficiency of Large Language Model Based Search Agents [9.862334188345791]
大規模言語モデル(LLM)に基づく検索エージェントは,複雑なタスクを解く際,顕著な能力を示した。
LLMベースの検索エージェントのための高効率推論フレームワークであるSearchAgent-Xを紹介する。
SearchAgent-Xは、vLLMやHNSWベースの検索のような最先端システムよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-17T16:07:01Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Knowledge Retrieval Based on Generative AI [4.9328530417790954]
本研究は,中国語ウィキペディアとLawbankを検索源として用いたRAG(Retrieval-Augmented Generation)に基づく質問応答システムを開発した。
このシステムは,BGE-M3を用いて高関係な検索結果を検索し,BGE-rerankerを用いてクエリの関連性に基づいてそれらの検索結果を並べ替える。
論文 参考訳(メタデータ) (2025-01-08T17:29:46Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。