Fugu-MT 論文翻訳(概要): VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

論文の概要: VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

arxiv url: http://arxiv.org/abs/2605.27882v1
Date: Wed, 27 May 2026 03:06:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.702211
Title: VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild
Title（参考訳）: VibeSearchBench: 野生での長期的プロアクティブ検索のベンチマーク
Authors: Xiaohongshu Inc,
Abstract要約: LLMベースのエージェントは、検索ベンチマークでよく評価されるが、実際のユーザは常に満足できない結果を見つける。このギャップは、既存のベンチマークが過剰に指定されたクエリ、シングルターンインタラクション、固定スキーマ評価に依存しているためである。我々は、このパラダイムをVibeSearchと呼び、20ドメインにわたる200のバイリンガル(中国語と英語)タスクを手作業でキュレートしたベンチマークであるVibeSearchBenchを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-experience gap. We attribute this gap to existing benchmarks' reliance on over-specified queries, single-turn interactions, and fixed-schema evaluation, none of which reflect real search behavior where users and agents collaboratively refine vague intent through multi-turn dialogue. We term this paradigm VibeSearch and introduce VibeSearchBench, a benchmark comprising 200 manually curated bilingual (Chinese and English) tasks across 20 domains, split into VibeSearch-Pro (professional) and VibeSearch-Daily (daily-life) subsets. Each task pairs a user persona with a schema-free ground-truth knowledge graph, and is evaluated through a progressive-disclosure user simulator and a graph-matching evaluation framework. We benchmark seven frontier models under both the ReAct framework and the OpenClaw agent harness. Results show that all models remain substantially inadequate for VibeSearch (best F1: 30.30), highlighting the need for fundamental advances in long-context reasoning, proactive intent elicitation, and structured knowledge construction.
Abstract（参考訳）: LLMベースのエージェントは、検索ベンチマークでよく評価されるが、実際のユーザは常に満足できない結果を見つけ、持続的な評価と経験のギャップが明らかになる。このギャップは、既存ベンチマークが過剰なクエリ、シングルターンインタラクション、固定スキーマ評価に依存していることによるものであり、ユーザやエージェントがマルチターン対話を通じて曖昧な意図を協調的に洗練する実際の検索動作を反映していない。我々は、このパラダイムをVibeSearchと呼び、20ドメインにわたる200のバイリンガル(中国語と英語)タスクを手作業でキュレートしたベンチマークであるVibeSearchBenchを紹介し、VibeSearch-Pro(専門)とVibeSearch-Daily(日常)サブセットに分割する。各タスクは、ユーザペルソナとスキーマフリーの地文知識グラフをペアリングし、プログレッシブ開示ユーザシミュレータとグラフマッチング評価フレームワークを介して評価する。私たちは、ReActフレームワークとOpenClawエージェントハーネスの両方の下で、7つのフロンティアモデルをベンチマークします。結果は、全てのモデルがVibeSearch (ベストF1: 30.30) において実質的に不十分であり、長文推論、積極的な意図推論、構造化知識構築の基本的な進歩の必要性を強調していることを示している。

関連論文リスト

GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文参考訳（メタデータ） (2026-02-09T11:44:15Z)
InteractComp: Evaluating Search Agents With Ambiguous Queries [36.05005463045869]
検索エージェントがクエリのあいまいさを認識でき、検索中に積極的に対話できるかどうかを評価するためのベンチマークであるInteractCompを紹介する。最高のモデルでは71.50%の完全コンテキストにもかかわらず、13.73%の精度しか達成していない。この停滞は、検索タスク固有の即時フィードバックと相まって、InteractCompは、検索エージェントのインタラクション機能の評価とトレーニングの両方に有用なリソースとなる。
論文参考訳（メタデータ） (2025-10-28T17:35:54Z)
Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。 BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文参考訳（メタデータ） (2025-09-08T10:58:42Z)
RAVine: Reality-Aligned Evaluation for Agentic Search [7.4420114967110385]
RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。 RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。 RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
論文参考訳（メタデータ） (2025-07-22T16:08:12Z)
Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
Tree Search for Language Model Agents [73.97960454223164]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文参考訳（メタデータ） (2024-07-01T17:07:55Z)
Beyond Semantics: Learning a Behavior Augmented Relevance Model with Self-supervised Learning [25.356999988217325]
関連モデリングは、対応するクエリに対して望ましい項目を見つけることを目的としている。ユーザの履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを提供する可能性がある。本モデルでは, 隣接する視点と対象視点の両方から, 粗粒度および細粒度の意味表現を蒸留するための多レベルコアテンションを構築している。
論文参考訳（メタデータ） (2023-08-10T06:52:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。