Fugu-MT 論文翻訳(概要): When Is Enough Not Enough? Illusory Completion in Search Agents

論文の概要: When Is Enough Not Enough? Illusory Completion in Search Agents

arxiv url: http://arxiv.org/abs/2602.07549v1
Date: Sat, 07 Feb 2026 13:50:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.68706
Title: When Is Enough Not Enough? Illusory Completion in Search Agents
Title（参考訳）: いつまで足りないのか? 検索エージェントのイリューショリー・コンプリート
Authors: Dayoon Ko, Jihyuk Kim, Sohyeon Kim, Haeju Park, Dahyun Lee, Gunhee Kim, Moontae Lee, Kyungjae Lee,
Abstract要約: 検索エージェントが、複数の条件をトラッキングし、検証し、維持することで、すべての要件に対して確実に理性性を持たせるかどうかを調査する。エージェントは、未解決の制約や違反の制約にもかかわらずタスクが完了したと信じており、未検証の回答につながる。我々は、実行中の明示的な制約状態追跡が、推論時トラッカーであるLiveLedgerを介してこれらの障害を緩和するかどうかを検討する。
参考スコア（独自算出の注目度）: 56.98225130959051
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent search agents leverage multi-turn reasoning and search tools to achieve strong performance on multi-hop and long-horizon benchmarks. Yet it remains unclear whether they reliably reason across all requirements by tracking, verifying, and maintaining multiple conditions in these questions. We study this capability under multi-constraint problems, where valid answers must satisfy several constraints simultaneously. We find that illusory completion frequently occurs, wherein agents believe tasks are complete despite unresolved or violated constraints, leading to underverified answers. To diagnose this behavior, we introduce the Epistemic Ledger, an evaluation framework that tracks evidential support and agents' beliefs for each constraint throughout multi-turn reasoning. Our analysis reveals four recurring failure patterns: bare assertions, overlooked refutations, stagnation, and premature exit. Motivated by these findings, we examine whether explicit constraint-state tracking during execution mitigates these failures via LiveLedger, an inference-time tracker. This simple intervention consistently improves performance, substantially reducing underverified answers (by up to 26.5%) and improving overall accuracy (by up to 11.6%) on multi-constraint problems.
Abstract（参考訳）: 近年の検索エージェントはマルチターン推論と検索ツールを利用して,マルチホップとロングホライゾンのベンチマークで高い性能を実現している。しかし、これらの質問における複数の条件を追跡し、検証し、維持することで、すべての要件を確実に理にかなっているかどうかは不明だ。本稿では,複数の制約を同時に満たさなければならないマルチ制約問題の下で,この能力について検討する。エージェントは、未解決の制約や違反の制約にもかかわらずタスクが完了したと信じており、未検証の回答につながる。マルチターン推論を通して各制約に対する明らかなサポートとエージェントの信念を追跡する評価フレームワークであるEpistemic Ledgerを導入する。私たちの分析では、素のアサーション、見過ごされた反響、停滞、未熟な終了という、4つの繰り返し発生する障害パターンが明らかになりました。これらの知見により、実行中の明示的な制約状態追跡が、推論時トラッカーであるLiveLedgerを介してこれらの障害を緩和するかどうかを検討する。この単純な介入は、パフォーマンスを継続的に改善し、未検証の回答(26.5%まで)を大幅に削減し、マルチ制約問題に対する全体的な精度(最大11.6%まで)を向上させる。

関連論文リスト

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文参考訳（メタデータ） (2026-03-03T17:52:01Z)
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents [10.197402632091551]
DeepSearchQAは、難しい多段階情報検索タスクのエージェントを評価する900プロンプトのベンチマークである。このデータセットは、エージェントが複雑な検索計画を実行し、完全な回答リストを生成する能力を評価するように設計されている。
論文参考訳（メタデータ） (2026-01-28T19:20:47Z)
Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文参考訳（メタデータ） (2025-12-01T14:35:06Z)
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。 25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文参考訳（メタデータ） (2025-10-01T07:59:03Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文参考訳（メタデータ） (2025-03-27T15:36:30Z)
Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。 MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文参考訳（メタデータ） (2025-03-17T19:04:38Z)
Regression with Multi-Expert Deferral [30.389055604165222]
複数の専門家で予測を遅延させる学習は、学習者が複数の専門家に予測を遅延させることを選択できるフレームワークである。本稿では、複数の専門家に予測を延期することを含む、遅延を伴う新しい回帰の枠組みを提案する。両シナリオに新たなサロゲート損失関数を導入し,これらが$H$一貫性境界でサポートされていることを証明した。
論文参考訳（メタデータ） (2024-03-28T15:26:38Z)
Large Language Model-Powered Smart Contract Vulnerability Detection: New Perspectives [8.524720028421447]
本稿では, GPT-4 のような大規模言語モデル (LLM) を利用する機会, 課題, 潜在的な解決策を体系的に分析する。高いランダム性でより多くの答えを生成することは、正しい答えを生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。本稿では,GPTLens と呼ばれる,従来の一段階検出を2つの相乗的段階に分割し,生成と識別を行う逆方向のフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T12:37:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。