論文の概要: Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents
- arxiv url: http://arxiv.org/abs/2603.26233v1
- Date: Fri, 27 Mar 2026 09:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.432047
- Title: Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents
- Title(参考訳): Ask or Assume? Uncerity-Aware Clarification-Seeking in Coding Agents
- Authors: Nicholas Edwards, Sebastian Schuster,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、ソフトウェア工学のようなオープンなドメインにますますデプロイされています。
我々は, SWE-bench Verified の未特定変種に対する LLM エージェントの解明と探索能力を評価する。
コード実行から不特定性検出を明示的に分離する不確実性認識型マルチエージェントスキャフォールドを提案する。
- 参考スコア(独自算出の注目度): 4.301199871195023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Model (LLM) agents are increasingly deployed in open-ended domains like software engineering, they frequently encounter underspecified instructions that lack crucial context. While human developers naturally resolve underspecification by asking clarifying questions, current agents are largely optimized for autonomous execution. In this work, we systematically evaluate the clarification-seeking abilities of LLM agents on an underspecified variant of SWE-bench Verified. We propose an uncertainty-aware multi-agent scaffold that explicitly decouples underspecification detection from code execution. Our results demonstrate that this multi-agent system using OpenHands + Claude Sonnet 4.5 achieves a 69.40% task resolve rate, significantly outperforming a standard single-agent setup (61.20%) and closing the performance gap with agents operating on fully specified instructions. Furthermore, we find that the multi-agent system exhibits well-calibrated uncertainty, conserving queries on simple tasks while proactively seeking information on more complex issues. These findings indicate that current models can be turned into proactive collaborators, where agents independently recognize when to ask questions to elicit missing information in real-world, underspecified tasks.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、ソフトウェアエンジニアリングのようなオープンなドメインにますますデプロイされるので、重要なコンテキストに欠ける不明確な命令に遭遇することが多い。
人間の開発者は質問を明確にすることで不特定性を自然に解決するが、現在のエージェントは自律実行に最適化されている。
本研究では, SWE-bench Verified の未特定変種に対する LLM エージェントの解明・探索能力について, 系統的に評価した。
コード実行から不特定性検出を明示的に分離する不確実性認識型マルチエージェントスキャフォールドを提案する。
その結果、OpenHands + Claude Sonnet 4.5 を用いたマルチエージェントシステムは、69.40%のタスク解決率を実現し、標準のシングルエージェントセットアップ(61.20%)を大幅に上回り、完全に指定された命令で操作するエージェントとの性能ギャップを埋めることを示した。
さらに, マルチエージェントシステムでは, 複雑な問題に関する情報を積極的に求めながら, 単純なタスクに対するクエリを保存し, 精度の高い不確実性を示すことがわかった。
これらの結果は、現在のモデルがプロアクティブなコラボレータに変換され、エージェントは、現実の未特定タスクにおいて欠落した情報を引き出すために、いつ質問をするかを独立に認識できることを示している。
関連論文リスト
- AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - AgentAsk: Multi-Agent Systems Need to Ask [26.13279490836716]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステムは、協調的な分業による問題解決能力の向上を約束する。
我々はAgentAskを提案する。AgentAskは軽量でプラグ・アンド・プレイの明確化モジュールで、すべてのエージェント間メッセージを潜在的な障害点として扱い、エラーの伝播を抑えるのに必要最小限の質問を挿入する。
AgentAskは、公開マルチエージェント実装の精度と堅牢性を継続的に改善し、オーバーヘッドを最小限に抑え、レイテンシと余分なコストを5%以下に抑える。
論文 参考訳(メタデータ) (2025-10-08T22:36:05Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents [31.126001253902416]
本研究は,LLMエージェントの欠陥の同定と検出に焦点を当てた最初の研究である。
StackOverflowから6,854件の関連記事を収集し分析し、8種類のエージェント欠陥を定義しました。
以上の結果から,Agentableの総合精度は88.79%,リコール率は91.03%であった。
論文 参考訳(メタデータ) (2024-12-24T11:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。