論文の概要: ClarEval: A Benchmark for Evaluating Clarification Skills of Code Agents under Ambiguous Instructions
- arxiv url: http://arxiv.org/abs/2603.00187v1
- Date: Fri, 27 Feb 2026 01:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 12:53:12.094764
- Title: ClarEval: A Benchmark for Evaluating Clarification Skills of Code Agents under Ambiguous Instructions
- Title(参考訳): ClarEval: 曖昧な指示の下でコードエージェントの明確化スキルを評価するベンチマーク
- Authors: Jialin Li, Yuan Wu, Yi Chang,
- Abstract要約: ClarEvalは、人間のコミュニケーションのあいまいさをシミュレートすることで、エージェントの「協調的クオリティ」を評価するために設計されたフレームワークである。
この能力の定量化のために,Average Turnsが主導するメトリクススイートを提案し,コーダ(ATC)とキー質問カバレッジ(KQC)を明らかにする。
GPT-5-Coderのようなモデルはコーディングに優れていますが、効率的なパートナーシップに必要な戦略的コミュニケーションスキルは欠如しています。
- 参考スコア(独自算出の注目度): 19.875754116636436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To integrate seamlessly into real-world software engineering, Code Agents must evolve from passive instruction followers into proactive collaborative partners. However, current evaluation paradigms predominantly reward "guessing" user intent under ideal conditions, neglecting the agent's ability to align with users through dialogue--a critical trait for collaborative intelligence. In this work, we propose a paradigm shift in evaluation to drive this transition. We introduce ClarEval, a framework designed to assess an agent's "Collaborative Quotient" by simulating the inherent ambiguity of human communication. By systematically injecting three types of realistic ambiguity (missing goals, premises, and ambiguous terminology) into standard tasks, we force agents to step out of their "generator" role and engage in requirement elicitation. To quantify this capability, we propose a metric suite led by Average Turns to Clarify (ATC) and Key Question Coverage (KQC), which measure not just the correctness of the generated code, but the efficiency and precision of the collaboration. Our experiments on eleven state-of-the-art agents reveal a stark reality: while models like GPT-5-Coder excel at coding, they often lack the strategic communication skills required for efficient partnership. ClarEval thus serves as a crucial roadmap for bridging the gap between strong coders and capable collaborators.The code is available at https://github.com/JialinLi13/ClarEval
- Abstract(参考訳): 現実のソフトウェアエンジニアリングにシームレスに統合するには、Code Agentsは受動的インストラクションのフォロワーから積極的に協力するパートナーへと進化する必要がある。
しかし、現在の評価パラダイムは、理想的な条件下でのユーザ意図を「うなずき」し、対話を通じてユーザーと協調するエージェントの能力を無視している。
本研究では,この遷移を駆動する評価のパラダイムシフトを提案する。
ClarEvalは、人間のコミュニケーションのあいまいさをシミュレートすることで、エージェントの「協調的クオリティ」を評価するために設計されたフレームワークである。
標準的なタスクに3種類の現実的曖昧さ(目標、前提、曖昧な用語を欠く)を体系的に注入することにより、エージェントは「ジェネレーター」の役割を降り、要求の誘導を行うように強制する。
この能力を定量化するために,Average Turns to Clarify (ATC) と Key Question Coverage (KQC) が率いるメトリクススイートを提案する。
GPT-5-Coderのようなモデルはコーディングに優れていますが、効率的なパートナーシップに必要な戦略的コミュニケーションスキルは欠如しています。
ClarEvalは、強力なコーダと有能なコラボレータのギャップを埋めるための重要なロードマップとして機能する。コードはhttps://github.com/JialinLi13/ClarEvalで公開されている。
関連論文リスト
- Towards Adaptive, Scalable, and Robust Coordination of LLM Agents: A Dynamic Ad-Hoc Networking Perspective [31.81236449944822]
RAPSは、LLMエージェントの適応性、拡張性、堅牢な調整のための、評判の高いパブリッシュ・サブスクライブ・パラダイムである。
RAPSは2つの一貫性のあるオーバーレイを組み込んでいる: (i) リアクティブ・サブスクライブ(reactive Subscription) エージェントがその意図を動的に洗練することを可能にし、 (ii) ベイジアン・レピュテーション(Bayesian Reputation)。
論文 参考訳(メタデータ) (2026-02-08T15:26:02Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - CooperBench: Why Coding Agents Cannot be Your Teammates Yet [44.06715229961526]
CooperBenchは、4つのプログラミング言語で12のライブラリにまたがる600以上の協調コーディングタスクのベンチマークである。
エージェントは、両方のタスクを個別に実行するよりも、一緒に働く場合の平均30%低い成功率を達成する。
分析の結果,(1)コミュニケーションチャネルは不明瞭で不正確なメッセージに悩まされる,(2)効果的なコミュニケーションであっても,エージェントはコミットメントから逸脱する,(3)エージェントが他人の計画やコミュニケーションに対して誤った期待を抱いている,という3つの重要な問題が明らかになった。
論文 参考訳(メタデータ) (2026-01-19T18:48:37Z) - From Correctness to Collaboration: Toward a Human-Centered Framework for Evaluating AI Agent Behavior in Software Engineering [7.402388519535592]
現在のベンチマークでは、コードの正確性に重点を置いているが、人間とAIのパートナーシップを成功させる上で欠かせない、対話的な振る舞いを捉えていない。
本稿では,エンタープライズソフトウェア工学における望ましいエージェント行動の基礎的分類について述べる。
また、コンテキスト適応行動(CAB)フレームワークを導入します。
論文 参考訳(メタデータ) (2025-12-29T20:18:57Z) - Towards Transparent and Incentive-Compatible Collaboration in Decentralized LLM Multi-Agent Systems: A Blockchain-Driven Approach [21.498244821985562]
本稿では、透過的なエージェント登録、検証可能なタスク割り当て、動的評価追跡を可能にするブロックチェーンベースのフレームワークを提案する。
本実装では, GPT-4エージェントをSolidity契約と統合し, 50ラウンドのシミュレーション, 高いタスク成功率, 安定したユーティリティ分布, 創発的エージェントの特殊化を実演する。
論文 参考訳(メタデータ) (2025-09-20T16:00:24Z) - Reducing Cognitive Overhead in Tool Use via Multi-Small-Agent Reinforcement Learning [1.974921946982281]
ツールの使用から推論を明示的に分離するフレームワークであるMSARLを提案する。
MSARLでは、Reasoning Agentが問題とツール呼び出しを分解し、複数のツールエージェントが特定の外部ツールを専門にしている。
コード実行による数学的問題解決において、MSARLは単一エージェントベースラインに対する推論安定性と最終回答精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-12T12:10:53Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - Beyond Autocomplete: Designing CopilotLens Towards Transparent and Explainable AI Coding Agents [4.960232980231203]
CopilotLensは、シンプルな提案から透過的で説明可能なインタラクションにコード補完を再構築する、インタラクティブなフレームワークである。
CopilotLensは、動的で2段階のインターフェースを通じてAIエージェントの"思考プロセス"を再構築する説明レイヤとして機能する。
論文 参考訳(メタデータ) (2025-06-24T23:50:03Z) - QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。