Fugu-MT 論文翻訳(概要): RAVine: Reality-Aligned Evaluation for Agentic Search

論文の概要: RAVine: Reality-Aligned Evaluation for Agentic Search

arxiv url: http://arxiv.org/abs/2507.16725v2
Date: Thu, 31 Jul 2025 10:20:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 13:02:07.653035
Title: RAVine: Reality-Aligned Evaluation for Agentic Search
Title（参考訳）: RAVine:エージェント検索のための現実感を考慮した評価
Authors: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao,
Abstract要約: RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。 RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。 RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
参考スコア（独自算出の注目度）: 7.4420114967110385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Agentic search, as a more autonomous and adaptive paradigm of retrieval augmentation, is driving the evolution of intelligent search systems. However, existing evaluation frameworks fail to align well with the goals of agentic search. First, the complex queries commonly used in current benchmarks often deviate from realistic user search scenarios. Second, prior approaches tend to introduce noise when extracting ground truth for end-to-end evaluations, leading to distorted assessments at a fine-grained level. Third, most current frameworks focus solely on the quality of final answers, neglecting the evaluation of the iterative process inherent to agentic search. To address these limitations, we propose RAVine -- a Reality-Aligned eValuation framework for agentic LLMs with search. RAVine targets multi-point queries and long-form answers that better reflect user intents, and introduces an attributable ground truth construction strategy to enhance the accuracy of fine-grained evaluation. Moreover, RAVine examines model's interaction with search tools throughout the iterative process, and accounts for factors of efficiency. We benchmark a series of models using RAVine and derive several insights, which we hope will contribute to advancing the development of agentic search systems. The code and datasets are available at https://github.com/SwordFaith/RAVine.
Abstract（参考訳）: エージェント検索は、より自律的で適応的な検索拡張パラダイムとして、インテリジェント検索システムの進化を推進している。しかし、既存の評価フレームワークはエージェント検索の目標とうまく一致しない。まず、現在のベンチマークで一般的に使用される複雑なクエリは、現実的なユーザ検索シナリオから逸脱することが多い。第二に、従来のアプローチでは、エンド・ツー・エンドの評価のために真実を抽出する際にノイズを発生させる傾向があり、きめ細かいレベルでの歪み評価をもたらす。第3に、現在のほとんどのフレームワークは最終回答の品質にのみ焦点をあてており、エージェント検索に固有の反復的プロセスの評価を無視している。これらの制約に対処するため,エージェントによるLLM検索のための現実対応eValuationフレームワークであるRAVineを提案する。 RAVineは,ユーザの意図を反映した多点質問や長文回答をターゲットとしており,微粒化評価の精度を高めるために,帰属的な真理構築戦略を導入している。さらに、RAVineは反復的なプロセスを通してモデルと検索ツールとの相互作用を調べ、効率の要因を考慮に入れている。我々は、RAVineを用いて一連のモデルをベンチマークし、いくつかの洞察を導き、エージェント検索システムの開発に寄与することを期待する。コードとデータセットはhttps://github.com/SwordFaith/RAVine.comで公開されている。

関連論文リスト

Am I on the Right Track? What Can Predicted Query Performance Tell Us about the Search Behaviour of Agentic RAG [35.16209722320604]
本稿では,最近のエージェントRAGモデル検索-R1とR1-Searcherにおけるクエリ性能予測(QPP)の適用性について検討する。より短い推理過程において,有効解答器を適用すれば高い解答精度が得られることがわかった。
論文参考訳（メタデータ） (2025-07-14T15:54:50Z)
Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。既存のエージェントサーチ手法には3つの大きな制限がある。これらの課題に対処するための包括的なフレームワークを導入します。
論文参考訳（メタデータ） (2025-06-06T12:07:23Z)
InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文参考訳（メタデータ） (2025-05-21T14:44:40Z)
MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文参考訳（メタデータ） (2025-03-11T05:02:03Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Learning to Rank for Multiple Retrieval-Augmented Models through Iterative Utility Maximization [21.115495457454365]
本稿では,複数検索拡張世代(RAG)エージェントを対象とした統合検索エンジンの設計について検討する。本稿では,検索エンジンがRAGエージェントの検索結果を生成し,オフラインフェーズにおいて検索した文書の品質に関するフィードバックを収集する反復的手法を提案する。我々は、これをオンライン環境に適応させ、リアルタイムなエージェントのフィードバックに基づいて、検索エンジンがその振る舞いを洗練できるようにする。
論文参考訳（メタデータ） (2024-10-13T17:53:50Z)
Beyond Semantics: Learning a Behavior Augmented Relevance Model with Self-supervised Learning [25.356999988217325]
関連モデリングは、対応するクエリに対して望ましい項目を見つけることを目的としている。ユーザの履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを提供する可能性がある。本モデルでは, 隣接する視点と対象視点の両方から, 粗粒度および細粒度の意味表現を蒸留するための多レベルコアテンションを構築している。
論文参考訳（メタデータ） (2023-08-10T06:52:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。