論文の概要: GISA: A Benchmark for General Information-Seeking Assistant
- arxiv url: http://arxiv.org/abs/2602.08543v1
- Date: Mon, 09 Feb 2026 11:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.199438
- Title: GISA: A Benchmark for General Information-Seeking Assistant
- Title(参考訳): GISA: 汎用情報検索アシスタントのベンチマーク
- Authors: Yutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang, Xiaoshuai Song, Kangzhi Zhao, Wencong Zeng, Ruiming Tang, Han Li, Ji-Rong Wen, Zhicheng Dou,
- Abstract要約: GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
- 参考スコア(独自算出の注目度): 102.30831921333755
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、マルチターンWebインタラクションを通じて情報を自律的に収集できる検索エージェントの開発を著しく加速させてきた。
このようなエージェントを評価するために様々なベンチマークが提案されている。
しかし、既存のベンチマークはしばしば回答から後方にクエリを構築し、非自然なタスクを現実の要求にマッチさせます。
さらに、これらのベンチマークは特定の情報を見つけるか、複数のソースから情報を集約するかに重点を置いている。
これらのギャップを埋めるため、GISAは、真正な情報検索シナリオを反映した373の人為的なクエリからなる汎用情報探索アシスタントのベンチマークである。
GISAは4つの構造化された回答形式(item, set, list, table)を備え、決定論的評価を可能にする。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
特に、GISAは全てのクエリに対して完全なヒューマン検索トラジェクトリを提供し、プロセスレベルの監視と模倣学習のためのゴールドスタンダードの参照を提供する。
主流のLCMや商用検索製品の実験では、最高のパフォーマンスモデルでさえ正確なマッチスコアは19.30 %に過ぎず、複雑な計画や包括的な情報収集を必要とするタスクでパフォーマンスが著しく低下していることが示されている。
これらの発見は、将来の改善のための大きな余地を浮き彫りにしている。
関連論文リスト
- Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Holistically Guided Monte Carlo Tree Search for Intricate Information Seeking [118.3983437282541]
我々は,モンテカルロ木探索 (HG-MCTS) を用いた新たな情報探索パラダイムを採用したLLMベースの検索アシスタントを提案する。
本稿では,知識メモリを用いたプログレッシブ情報収集プロセスとしてタスクを再構築し,適応型チェックリストとMCTSのマルチパースペクティブ報酬モデルとを結合する。
マルチパースペクティブ報酬モデリングは、探索と検索の両方の報奨と、完了と残るサブゴールを追跡する進捗フィードバックを提供する。
論文 参考訳(メタデータ) (2025-02-07T08:36:39Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。