論文の概要: InteractComp: Evaluating Search Agents With Ambiguous Queries
- arxiv url: http://arxiv.org/abs/2510.24668v1
- Date: Tue, 28 Oct 2025 17:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.309994
- Title: InteractComp: Evaluating Search Agents With Ambiguous Queries
- Title(参考訳): InteractComp: あいまいなクエリによる検索エージェントの評価
- Authors: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo,
- Abstract要約: 検索エージェントがクエリのあいまいさを認識でき、検索中に積極的に対話できるかどうかを評価するためのベンチマークであるInteractCompを紹介する。
最高のモデルでは71.50%の完全コンテキストにもかかわらず、13.73%の精度しか達成していない。
この停滞は、検索タスク固有の即時フィードバックと相まって、InteractCompは、検索エージェントのインタラクション機能の評価とトレーニングの両方に有用なリソースとなる。
- 参考スコア(独自算出の注目度): 36.05005463045869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language agents have demonstrated remarkable potential in web search and information retrieval. However, these search agents assume user queries are complete and unambiguous, an assumption that diverges from reality where users begin with incomplete queries requiring clarification through interaction. Yet most agents lack interactive mechanisms during the search process, and existing benchmarks cannot assess this capability. To address this gap, we introduce InteractComp, a benchmark designed to evaluate whether search agents can recognize query ambiguity and actively interact to resolve it during search. Following the principle of easy to verify, interact to disambiguate, we construct 210 expert-curated questions across 9 domains through a target-distractor methodology that creates genuine ambiguity resolvable only through interaction. Evaluation of 17 models reveals striking failure: the best model achieves only 13.73% accuracy despite 71.50% with complete context, exposing systematic overconfidence rather than reasoning deficits. Forced interaction produces dramatic gains, demonstrating latent capability current strategies fail to engage. Longitudinal analysis shows interaction capabilities stagnated over 15 months while search performance improved seven-fold, revealing a critical blind spot. This stagnation, coupled with the immediate feedback inherent to search tasks, makes InteractComp a valuable resource for both evaluating and training interaction capabilities in search agents. The code is available at https://github.com/FoundationAgents/InteractComp.
- Abstract(参考訳): 言語エージェントは、Web検索と情報検索において顕著な可能性を示している。
しかし、これらの検索エージェントは、ユーザクエリが完全で曖昧であると仮定し、ユーザが対話を通じて明確化を必要とする不完全なクエリから始まる現実から逸脱する、という仮定である。
しかし、ほとんどのエージェントは、検索プロセス中に対話的なメカニズムを欠いているため、既存のベンチマークでは、この能力を評価できない。
このギャップに対処するために、検索エージェントがクエリのあいまいさを認識し、検索中に積極的に対話して解決できるかどうかを評価するためのベンチマークであるInteractCompを紹介した。
検証し易く,あいまいさに対処する原則に従えば,9領域にわたる専門家による210の質問を,対話を通じてのみ解決可能な真のあいまいさを創出するターゲット・ディフラクタ手法を用いて構築する。
最高のモデルでは、71.50%の完全コンテキストにもかかわらず、13.73%の精度しか達成せず、欠陥を推論するのではなく、体系的な過信を露呈している。
強制的な相互作用は劇的に向上し、現在の戦略が関与できない潜在能力を示す。
縦断解析によると、相互作用能力は15ヶ月にわたって停滞し、検索性能は7倍に向上し、致命的な盲点が明らかとなった。
この停滞は、検索タスク固有の即時フィードバックと相まって、InteractCompは、検索エージェントのインタラクション機能の評価とトレーニングの両方に有用なリソースとなる。
コードはhttps://github.com/FoundationAgents/InteractCompで公開されている。
関連論文リスト
- PATHWAYS: Evaluating Investigation and Context Discovery in AI Web Agents [0.0]
PATHWAYSは250のマルチステップ決定タスクのベンチマークである。
Webベースのエージェントが、隠れたコンテキスト情報を発見し、正しく使用できるかをテストする。
論文 参考訳(メタデータ) (2026-02-05T06:24:23Z) - Over-Searching in Search-Augmented Large Language Models [22.821710825732563]
検索強化された大言語モデル(LLM)は、外部検索を統合することで知識集約的なタスクに優れる。
過剰探索は、無関係な文脈を取り入れることで、計算の非効率性と幻覚をもたらす。
以上の結果から, (i) 解答可能な問合せに対する解答精度は向上するが, 解答不可能な問合せに対する棄却を損なうこと, (ii) 過剰探索が複雑な推論モデルや深層研究システムにおいてより顕著であること, (iii) 否定的証拠の存在が棄却を改善していることが示唆された。
論文 参考訳(メタデータ) (2026-01-09T03:24:46Z) - SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。
既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。
この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文 参考訳(メタデータ) (2026-01-08T12:39:05Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - A Study on Leveraging Search and Self-Feedback for Agent Reasoning [16.256600534996686]
本研究では,探索とモデルの自己フィードバックを推論タスクに活用する方法を検討する。
まず,数理推論の探索において,地道フィードバックと自己フィードバックの相違について検討する。
論文 参考訳(メタデータ) (2025-02-17T18:12:36Z) - A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。
関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文 参考訳(メタデータ) (2024-09-27T08:17:53Z) - Beyond Semantics: Learning a Behavior Augmented Relevance Model with
Self-supervised Learning [25.356999988217325]
関連モデリングは、対応するクエリに対して望ましい項目を見つけることを目的としている。
ユーザの履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを提供する可能性がある。
本モデルでは, 隣接する視点と対象視点の両方から, 粗粒度および細粒度の意味表現を蒸留するための多レベルコアテンションを構築している。
論文 参考訳(メタデータ) (2023-08-10T06:52:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。