論文の概要: SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval
- arxiv url: http://arxiv.org/abs/2605.22219v1
- Date: Thu, 21 May 2026 09:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.189189
- Title: SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval
- Title(参考訳): SGR-Bench: State-Gated Retrieval上のベンチマーク検索エージェント
- Authors: Ningyuan Li, Haiyang Shen, Mugeng Liu, Yudong Han, Zhuofan Shi, Sixiong Xie, Yun Ma,
- Abstract要約: 専門的な検索タスクのクラスは、まだ不足している。
我々は、この機能をステートゲート検索(SGR)と呼ぶ。
SGR-Benchはこの設定のためのベンチマークで、6つのソースファミリーと12のパブリックデータエコシステムにまたがる100の専門家によるタスクを含んでいる。
- 参考スコア(独自算出の注目度): 5.32888938421653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models and tool-using agents have expanded the range of benchmarked web tasks. Yet an important class of specialized retrieval tasks remains undercharacterized. On many specialized data-retrieval websites, answer-bearing evidence becomes accessible only after establishing the correct site-specific retrieval state through filters, views, hierarchies, or scopes. We term this capability state-gated retrieval (SGR). We introduce SGR-Bench, a benchmark for this setting containing 100 expert-curated tasks spanning six source families and 12 public data ecosystems. Each task requires discovering the appropriate website and configuring its site-specific retrieval state to produce a structured answer. SGR-Bench pairs constraint-guided and goal-oriented formulations of the same underlying problems, enabling controlled comparisons between explicit and implicit guidance for state-gated retrieval. We evaluate eight CLI-based agentic LLM systems and three commercial search-agent products. On SGR-Bench, the strongest system reaches only 66.18% item-level F1, while row-level F1 remains much lower. A manual audit of 156 analyzable failed CLI trajectories shows why: agents often reach a relevant web source, but establish the wrong site-specific retrieval state. Retrieval-scope drift (37.2%) and criterion mismatch (27.6%) dominate, whereas final answer composition accounts for only 10.3%. The dataset and single-case evaluation instructions are available at https://huggingface.co/datasets/PKUAIWeb/SGR-BENCH.
- Abstract(参考訳): 大規模言語モデルやツール使用エージェントの最近の進歩は、ベンチマークされたWebタスクの範囲を広げている。
しかし、特別な検索タスクの重要なクラスは、まだ不足している。
多くの専門的なデータ検索サイトにおいて、解答可能な証拠は、フィルター、ビュー、階層、スコープを通じて、正しいサイト固有の検索状態を確立した後にのみアクセスできるようになる。
この機能をステートゲート検索(SGR)と呼ぶ。
SGR-Benchは、6つのソースファミリーと12のパブリックデータエコシステムにまたがる100の専門家によるタスクを含む、この設定のためのベンチマークである。
各タスクは適切なウェブサイトを発見し、サイト固有の検索状態を設定して構造化された回答を生成する必要がある。
SGR-Benchペアは制約誘導と目標指向の同じ問題の定式化を行い、ステートゲート検索のための明示的なガイダンスと暗黙的なガイダンスの制御された比較を可能にする。
CLIをベースとした8種類のエージェントLDMシステムと3つの商用検索エージェント製品を評価した。
SGR-Benchでは、最強のシステムは66.18%のアイテムレベルF1にしか達せず、行レベルF1はずっと低いままである。
分析可能なCLIトラジェクトリ156のマニュアル監査では,エージェントが関連するWebソースに到達することが多いが,サイト固有の検索状態が正しくない理由が示されている。
レトリーバルスコープドリフト(37.2%)とクレーターミスマッチ(27.6%)が支配的であり、最終回答の組成はわずか10.3%である。
データセットとシングルケースの評価手順はhttps://huggingface.co/datasets/PKUAIWeb/SGR-BENCHで確認できる。
関連論文リスト
- Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views [24.456069497637035]
高次元空間におけるベクトル類似度探索(VSS)は,次世代データベースシステムにおけるコア機能として急速に発展しつつある。
最近のベンチマークでは、主に距離メトリクスのみによって定義された基本真実に対するリコールレイテンシトレードオフに基づいてVSSを評価している。
我々は、現実的なアプリケーションコンテキストにおけるVSSメソッドのエンドツーエンド評価のための総合ベンチマークスイートであるIcebergを紹介する。
論文 参考訳(メタデータ) (2025-12-15T04:49:33Z) - Clue-RAG: Towards Accurate and Cost-Efficient Graph-based RAG via Multi-Partite Graph and Query-Driven Iterative Retrieval [15.599544326509436]
Retrieval-Augmented Generation (RAG) は、しばしばグラフ構造化データから外部情報を統合することで制限に対処する。
本稿では,マルチパーティグラフインデックスとクエリ駆動反復検索戦略を導入した新しいアプローチであるClue-RAGを提案する。
3つのQAベンチマークの実験により、Clue-RAGは最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-11T09:36:45Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。