論文の概要: RAVine: Reality-Aligned Evaluation for Agentic Search
- arxiv url: http://arxiv.org/abs/2507.16725v2
- Date: Thu, 31 Jul 2025 10:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.653035
- Title: RAVine: Reality-Aligned Evaluation for Agentic Search
- Title(参考訳): RAVine:エージェント検索のための現実感を考慮した評価
- Authors: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao,
- Abstract要約: RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。
RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。
RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
- 参考スコア(独自算出の注目度): 7.4420114967110385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic search, as a more autonomous and adaptive paradigm of retrieval augmentation, is driving the evolution of intelligent search systems. However, existing evaluation frameworks fail to align well with the goals of agentic search. First, the complex queries commonly used in current benchmarks often deviate from realistic user search scenarios. Second, prior approaches tend to introduce noise when extracting ground truth for end-to-end evaluations, leading to distorted assessments at a fine-grained level. Third, most current frameworks focus solely on the quality of final answers, neglecting the evaluation of the iterative process inherent to agentic search. To address these limitations, we propose RAVine -- a Reality-Aligned eValuation framework for agentic LLMs with search. RAVine targets multi-point queries and long-form answers that better reflect user intents, and introduces an attributable ground truth construction strategy to enhance the accuracy of fine-grained evaluation. Moreover, RAVine examines model's interaction with search tools throughout the iterative process, and accounts for factors of efficiency. We benchmark a series of models using RAVine and derive several insights, which we hope will contribute to advancing the development of agentic search systems. The code and datasets are available at https://github.com/SwordFaith/RAVine.
- Abstract(参考訳): エージェント検索は、より自律的で適応的な検索拡張パラダイムとして、インテリジェント検索システムの進化を推進している。
しかし、既存の評価フレームワークはエージェント検索の目標とうまく一致しない。
まず、現在のベンチマークで一般的に使用される複雑なクエリは、現実的なユーザ検索シナリオから逸脱することが多い。
第二に、従来のアプローチでは、エンド・ツー・エンドの評価のために真実を抽出する際にノイズを発生させる傾向があり、きめ細かいレベルでの歪み評価をもたらす。
第3に、現在のほとんどのフレームワークは最終回答の品質にのみ焦点をあてており、エージェント検索に固有の反復的プロセスの評価を無視している。
これらの制約に対処するため,エージェントによるLLM検索のための現実対応eValuationフレームワークであるRAVineを提案する。
RAVineは,ユーザの意図を反映した多点質問や長文回答をターゲットとしており,微粒化評価の精度を高めるために,帰属的な真理構築戦略を導入している。
さらに、RAVineは反復的なプロセスを通してモデルと検索ツールとの相互作用を調べ、効率の要因を考慮に入れている。
我々は、RAVineを用いて一連のモデルをベンチマークし、いくつかの洞察を導き、エージェント検索システムの開発に寄与することを期待する。
コードとデータセットはhttps://github.com/SwordFaith/RAVine.comで公開されている。
関連論文リスト
- HotelQuEST: Balancing Quality and Efficiency in Agentic Search [6.1626572270420334]
エージェント検索は,大規模言語モデル(LLM)を利用した適応検索システムにおいて,有望なパラダイムとして登場した。
ホテルクエスト(HotelQuEST)は、214のホテル検索クエリからなるベンチマークで、単純な事実要求から複雑なクエリまで様々である。
LLMをベースとしたエージェントは,従来のレトリバーよりも精度が高いが,冗長なツールコールや準最適ルーティングによるコストが著しく高いことがわかった。
論文 参考訳(メタデータ) (2026-02-27T11:50:57Z) - SRR-Judge: Step-Level Rating and Refinement for Enhancing Search-Integrated Reasoning in Search Agents [30.92763154920672]
SRR-Judgeは、推論と探索行動の信頼性の高い段階評価のためのフレームワークである。
SRR-Judgeは、探索積分推論のためのきめ細かいガイダンスを提供し、効率的な後トレーニングアノテーションを可能にする。
SRR-Judgeは、DeepSeek-V3.1のようなより大きなモデルよりも信頼性の高いステップレベルの評価を提供する。
論文 参考訳(メタデータ) (2026-02-08T02:07:41Z) - SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。
既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。
この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文 参考訳(メタデータ) (2026-01-08T12:39:05Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Am I on the Right Track? What Can Predicted Query Performance Tell Us about the Search Behaviour of Agentic RAG [35.16209722320604]
本稿では,最近のエージェントRAGモデル検索-R1とR1-Searcherにおけるクエリ性能予測(QPP)の適用性について検討する。
より短い推理過程において,有効解答器を適用すれば高い解答精度が得られることがわかった。
論文 参考訳(メタデータ) (2025-07-14T15:54:50Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Learning to Rank for Multiple Retrieval-Augmented Models through Iterative Utility Maximization [21.115495457454365]
本稿では,複数検索拡張世代(RAG)エージェントを対象とした統合検索エンジンの設計について検討する。
本稿では,検索エンジンがRAGエージェントの検索結果を生成し,オフラインフェーズにおいて検索した文書の品質に関するフィードバックを収集する反復的手法を提案する。
我々は、これをオンライン環境に適応させ、リアルタイムなエージェントのフィードバックに基づいて、検索エンジンがその振る舞いを洗練できるようにする。
論文 参考訳(メタデータ) (2024-10-13T17:53:50Z) - Beyond Semantics: Learning a Behavior Augmented Relevance Model with
Self-supervised Learning [25.356999988217325]
関連モデリングは、対応するクエリに対して望ましい項目を見つけることを目的としている。
ユーザの履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを提供する可能性がある。
本モデルでは, 隣接する視点と対象視点の両方から, 粗粒度および細粒度の意味表現を蒸留するための多レベルコアテンションを構築している。
論文 参考訳(メタデータ) (2023-08-10T06:52:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。