論文の概要: When Is Enough Not Enough? Illusory Completion in Search Agents
- arxiv url: http://arxiv.org/abs/2602.07549v1
- Date: Sat, 07 Feb 2026 13:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.68706
- Title: When Is Enough Not Enough? Illusory Completion in Search Agents
- Title(参考訳): いつまで足りないのか? 検索エージェントのイリューショリー・コンプリート
- Authors: Dayoon Ko, Jihyuk Kim, Sohyeon Kim, Haeju Park, Dahyun Lee, Gunhee Kim, Moontae Lee, Kyungjae Lee,
- Abstract要約: 検索エージェントが、複数の条件をトラッキングし、検証し、維持することで、すべての要件に対して確実に理性性を持たせるかどうかを調査する。
エージェントは、未解決の制約や違反の制約にもかかわらずタスクが完了したと信じており、未検証の回答につながる。
我々は、実行中の明示的な制約状態追跡が、推論時トラッカーであるLiveLedgerを介してこれらの障害を緩和するかどうかを検討する。
- 参考スコア(独自算出の注目度): 56.98225130959051
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent search agents leverage multi-turn reasoning and search tools to achieve strong performance on multi-hop and long-horizon benchmarks. Yet it remains unclear whether they reliably reason across all requirements by tracking, verifying, and maintaining multiple conditions in these questions. We study this capability under multi-constraint problems, where valid answers must satisfy several constraints simultaneously. We find that illusory completion frequently occurs, wherein agents believe tasks are complete despite unresolved or violated constraints, leading to underverified answers. To diagnose this behavior, we introduce the Epistemic Ledger, an evaluation framework that tracks evidential support and agents' beliefs for each constraint throughout multi-turn reasoning. Our analysis reveals four recurring failure patterns: bare assertions, overlooked refutations, stagnation, and premature exit. Motivated by these findings, we examine whether explicit constraint-state tracking during execution mitigates these failures via LiveLedger, an inference-time tracker. This simple intervention consistently improves performance, substantially reducing underverified answers (by up to 26.5%) and improving overall accuracy (by up to 11.6%) on multi-constraint problems.
- Abstract(参考訳): 近年の検索エージェントはマルチターン推論と検索ツールを利用して,マルチホップとロングホライゾンのベンチマークで高い性能を実現している。
しかし、これらの質問における複数の条件を追跡し、検証し、維持することで、すべての要件を確実に理にかなっているかどうかは不明だ。
本稿では,複数の制約を同時に満たさなければならないマルチ制約問題の下で,この能力について検討する。
エージェントは、未解決の制約や違反の制約にもかかわらずタスクが完了したと信じており、未検証の回答につながる。
マルチターン推論を通して各制約に対する明らかなサポートとエージェントの信念を追跡する評価フレームワークであるEpistemic Ledgerを導入する。
私たちの分析では、素のアサーション、見過ごされた反響、停滞、未熟な終了という、4つの繰り返し発生する障害パターンが明らかになりました。
これらの知見により、実行中の明示的な制約状態追跡が、推論時トラッカーであるLiveLedgerを介してこれらの障害を緩和するかどうかを検討する。
この単純な介入は、パフォーマンスを継続的に改善し、未検証の回答(26.5%まで)を大幅に削減し、マルチ制約問題に対する全体的な精度(最大11.6%まで)を向上させる。
関連論文リスト
- DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents [10.197402632091551]
DeepSearchQAは、難しい多段階情報検索タスクのエージェントを評価する900プロンプトのベンチマークである。
このデータセットは、エージェントが複雑な検索計画を実行し、完全な回答リストを生成する能力を評価するように設計されている。
論文 参考訳(メタデータ) (2026-01-28T19:20:47Z) - Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Large Language Model-Powered Smart Contract Vulnerability Detection: New
Perspectives [8.524720028421447]
本稿では, GPT-4 のような大規模言語モデル (LLM) を利用する機会, 課題, 潜在的な解決策を体系的に分析する。
高いランダム性でより多くの答えを生成することは、正しい答えを生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。
本稿では,GPTLens と呼ばれる,従来の一段階検出を2つの相乗的段階に分割し,生成と識別を行う逆方向のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T12:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。