論文の概要: RAVine: Reality-Aligned Evaluation for Agentic Search
- arxiv url: http://arxiv.org/abs/2507.16725v2
- Date: Thu, 31 Jul 2025 10:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.653035
- Title: RAVine: Reality-Aligned Evaluation for Agentic Search
- Title(参考訳): RAVine:エージェント検索のための現実感を考慮した評価
- Authors: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao,
- Abstract要約: RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。
RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。
RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
- 参考スコア(独自算出の注目度): 7.4420114967110385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic search, as a more autonomous and adaptive paradigm of retrieval augmentation, is driving the evolution of intelligent search systems. However, existing evaluation frameworks fail to align well with the goals of agentic search. First, the complex queries commonly used in current benchmarks often deviate from realistic user search scenarios. Second, prior approaches tend to introduce noise when extracting ground truth for end-to-end evaluations, leading to distorted assessments at a fine-grained level. Third, most current frameworks focus solely on the quality of final answers, neglecting the evaluation of the iterative process inherent to agentic search. To address these limitations, we propose RAVine -- a Reality-Aligned eValuation framework for agentic LLMs with search. RAVine targets multi-point queries and long-form answers that better reflect user intents, and introduces an attributable ground truth construction strategy to enhance the accuracy of fine-grained evaluation. Moreover, RAVine examines model's interaction with search tools throughout the iterative process, and accounts for factors of efficiency. We benchmark a series of models using RAVine and derive several insights, which we hope will contribute to advancing the development of agentic search systems. The code and datasets are available at https://github.com/SwordFaith/RAVine.
- Abstract(参考訳): エージェント検索は、より自律的で適応的な検索拡張パラダイムとして、インテリジェント検索システムの進化を推進している。
しかし、既存の評価フレームワークはエージェント検索の目標とうまく一致しない。
まず、現在のベンチマークで一般的に使用される複雑なクエリは、現実的なユーザ検索シナリオから逸脱することが多い。
第二に、従来のアプローチでは、エンド・ツー・エンドの評価のために真実を抽出する際にノイズを発生させる傾向があり、きめ細かいレベルでの歪み評価をもたらす。
第3に、現在のほとんどのフレームワークは最終回答の品質にのみ焦点をあてており、エージェント検索に固有の反復的プロセスの評価を無視している。
これらの制約に対処するため,エージェントによるLLM検索のための現実対応eValuationフレームワークであるRAVineを提案する。
RAVineは,ユーザの意図を反映した多点質問や長文回答をターゲットとしており,微粒化評価の精度を高めるために,帰属的な真理構築戦略を導入している。
さらに、RAVineは反復的なプロセスを通してモデルと検索ツールとの相互作用を調べ、効率の要因を考慮に入れている。
我々は、RAVineを用いて一連のモデルをベンチマークし、いくつかの洞察を導き、エージェント検索システムの開発に寄与することを期待する。
コードとデータセットはhttps://github.com/SwordFaith/RAVine.comで公開されている。
関連論文リスト
- MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Learning to Rank for Multiple Retrieval-Augmented Models through Iterative Utility Maximization [21.115495457454365]
本稿では,複数検索拡張世代(RAG)エージェントを対象とした統合検索エンジンの設計について検討する。
本稿では,検索エンジンがRAGエージェントの検索結果を生成し,オフラインフェーズにおいて検索した文書の品質に関するフィードバックを収集する反復的手法を提案する。
我々は、これをオンライン環境に適応させ、リアルタイムなエージェントのフィードバックに基づいて、検索エンジンがその振る舞いを洗練できるようにする。
論文 参考訳(メタデータ) (2024-10-13T17:53:50Z) - Beyond Semantics: Learning a Behavior Augmented Relevance Model with
Self-supervised Learning [25.356999988217325]
関連モデリングは、対応するクエリに対して望ましい項目を見つけることを目的としている。
ユーザの履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを提供する可能性がある。
本モデルでは, 隣接する視点と対象視点の両方から, 粗粒度および細粒度の意味表現を蒸留するための多レベルコアテンションを構築している。
論文 参考訳(メタデータ) (2023-08-10T06:52:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。