論文の概要: Wink: Recovering from Misbehaviors in Coding Agents
- arxiv url: http://arxiv.org/abs/2602.17037v1
- Date: Thu, 19 Feb 2026 03:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.614528
- Title: Wink: Recovering from Misbehaviors in Coding Agents
- Title(参考訳): Wink: コーディングエージェントの誤解から回復する
- Authors: Rahul Nanda, Chandra Maddila, Smriti Jha, Euna Mehnaz Khan, Matteo Paltenghi, Satish Chandra,
- Abstract要約: ソフトウェア業界では、複雑なエンジニアリングタスクを自動化するために、自動コーディングエージェントがますます採用されている。
これらのエージェントは、ユーザの指示から逸脱したり、繰り返しループで立ち往生したり、ツールを正しく使わなかったりするなど、幅広い誤動作を起こしやすい。
本稿では,エージェントの誤動作から自動的に回復するシステムについて述べる。
- 参考スコア(独自算出の注目度): 6.794419834325995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous coding agents, powered by large language models (LLMs), are increasingly being adopted in the software industry to automate complex engineering tasks. However, these agents are prone to a wide range of misbehaviors, such as deviating from the user's instructions, getting stuck in repetitive loops, or failing to use tools correctly. These failures disrupt the development workflow and often require resource-intensive manual intervention. In this paper, we present a system for automatically recovering from agentic misbehaviors at scale. We first introduce a taxonomy of misbehaviors grounded in an analysis of production traffic, identifying three primary categories: Specification Drift, Reasoning Problems, and Tool Call Failures, which we find occur in about 30% of all agent trajectories. To address these issues, we developed a lightweight, asynchronous self-intervention system named Wink. Wink observes agent trajectories and provides targeted course-correction guidance to nudge the agent back to a productive path. We evaluated our system on over 10,000 real world agent trajectories and found that it successfully resolves 90% of the misbehaviors that require a single intervention. Furthermore, a live A/B test in our production environment demonstrated that our system leads to a statistically significant reduction in Tool Call Failures, Tokens per Session and Engineer Interventions per Session. We present our experience designing and deploying this system, offering insights into the challenges of building resilient agentic systems at scale.
- Abstract(参考訳): 大規模言語モデル(LLM)を活用した自動コーディングエージェントは、複雑なエンジニアリングタスクを自動化するために、ソフトウェア業界でますます採用されている。
しかし、これらのエージェントは、ユーザの指示から逸脱したり、繰り返しループで立ち往生したり、ツールを正しく使わなかったりするなど、幅広い誤動作を起こしやすい。
これらの失敗は開発ワークフローを混乱させ、しばしばリソース集約的な手作業による介入を必要とします。
本稿では,エージェントの誤動作を大規模に回復するシステムを提案する。
まず,生産トラフィックの分析に基づく誤動作の分類を導入し,各エージェントの約30%で発生する,仕様ドリフト,推論問題,ツールコール障害の3つの主要なカテゴリを特定した。
これらの問題に対処するため、Winkという軽量で非同期な自己干渉システムを開発した。
ウィンクはエージェントの軌道を観察し、エージェントを生産的な経路に戻すための目標のコース補正ガイダンスを提供する。
我々は,1万件以上の実世界のエージェント・トラジェクトリーを用いてシステム評価を行い,単一の介入を必要とする不正行動の90%を解決できることを発見した。
さらに、実運用環境でのライブA/Bテストでは、私たちのシステムが、Tool Call Failures、Tokens per Session、 Engineer Interventions per Sessionの統計的に顕著な削減につながることを示した。
我々は、このシステムを設計、デプロイし、大規模にレジリエントなエージェントシステムを構築する際の課題についての洞察を提供する。
関連論文リスト
- The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks [8.218266805768687]
我々は、自律エージェントを厳格に評価するために設計された34のプログラム可能なタスクのベンチマークを示す。
LLMバックボーンと組み合わせた3つの人気のあるオープンソースエージェントフレームワークを評価し,タスク完了率約50%を観察した。
我々は,障害の原因を3段階に分類し,計画上のエラー,タスク実行の問題,誤った応答生成を強調する。
論文 参考訳(メタデータ) (2025-08-18T17:55:22Z) - TRAIL: Trace Reasoning and Agentic Issue Localization [5.025960714013197]
この研究は、エージェントワークフロートレースに対する堅牢でダイナミックな評価方法の必要性を明確に示している。
我々は,この分類法を用いて構築され,確立されたエージェント・ベンチマークに基づいて構築された148個の大型人名跡(TRAIL)について述べる。
生態学的妥当性を確保するため,単一エージェントシステムとマルチエージェントシステムの両方のトレースをキュレートする。
論文 参考訳(メタデータ) (2025-05-13T14:55:31Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。