論文の概要: AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation
- arxiv url: http://arxiv.org/abs/2605.12925v1
- Date: Wed, 13 May 2026 03:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.77493
- Title: AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation
- Title(参考訳): AgentLens:SWE-Agent評価におけるラッキーパスの問題を明らかにする
- Authors: Priyam Sahoo, Gaurav Mittal, Xiaomin Li, Shengjie Ma, Benjamin Steenhoek, Pingping Lin, Yu Hu,
- Abstract要約: 8つのモデルバックエンドから60個のSWEベンチ検証タスクの2,614個のOpenHandsトラジェクトリを評価した。
このサブセットで通過する軌道の中で、10.7%はラッキーパスと呼ばれる振る舞いを示す。
本稿では,SWEエージェント軌道のプロセスレベル評価フレームワークであるAgentLensを紹介する。
- 参考スコア(独自算出の注目度): 11.272830796781925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of software engineering (SWE) agents is dominated by a binary signal: whether the final patch passes the tests. This outcome-only view treats a principled solution and a chaotic trial-and-error process as equivalent. We show that this equivalence is empirically false. We evaluate 2,614 OpenHands trajectories from eight model backends on 60 SWE-bench Verified tasks. Of these, 47 have enough passing trajectories to construct task-level process references, yielding a 1,815-trajectory evaluation subset. Among passing trajectories in this subset, 10.7% exhibit behavior we call a Lucky Pass: regression cycles, blind retries, missing verification, or temporally disordered exploration, implementation, and verification. We introduce AgentLens, a framework for process-level assessment of SWE-agent trajectories, and release AgentLens-Bench, a dataset of 1,815 trajectories annotated with quality scores, waste signals, divergence points, and 47 task-level Prefix Tree Acceptor (PTA) references. AgentLens builds PTA references by merging multiple passing solutions for the same task, and uses a context-sensitive intent labeler to assign actions to Exploration, Implementation, Verification, or Orchestration based on trajectory history rather than tool identity alone. On AgentLens-Bench, the quality score separates passing trajectories into Lucky, Solid, and Ideal tiers and further decomposes Lucky Passes into five recurring mechanisms. Across the eight model backends, Lucky rates range from 0.5% to 23.2%, and some models move by as many as five rank positions when ranked by quality score instead of pass rate. We release the anonymized project repository, including the AgentLens-Bench dataset and AgentLens SDK, at https://github.com/microsoft/code-agent-state-trajectories/.
- Abstract(参考訳): ソフトウェアエンジニアリング(SWE)エージェントの評価は、最終パッチがテストに合格するかどうかというバイナリ信号によって支配される。
この結果のみの見解は、原則化された解決策とカオス的な試行錯誤プロセスを等価として扱う。
この等価性は実証的に偽であることを示す。
8つのモデルバックエンドから60個のSWEベンチ検証タスクの2,614個のOpenHandsトラジェクトリを評価した。
これらのうち47はタスクレベルのプロセス参照を構築するのに十分なパストラジェクトリを持ち、1,815のトラジェクトリ評価サブセットを生成する。
このサブセットの軌跡の中で、10.7%はラッキーパスと呼ばれる行動を示す:回帰サイクル、ブラインドリトライ、欠落した検証、時間的に乱れた探索、実装、検証。
本稿では,SWE-Adntトラジェクトリのプロセスレベル評価フレームワークであるAgentLens-Benchと,品質スコア,ムダ信号,発散点,47タスクレベルのプレフィックスツリーアクセプタ(PTA)参照を付加した1,815トラジェクトリのデータセットであるAgentLens-Benchを紹介する。
AgentLensは、同じタスクのために複数のパスソリューションをマージしてPTA参照を構築し、ツールアイデンティティのみではなく、トラジェクトリ履歴に基づいたエクスプロレーション、実装、検証、オーケストレーションにアクションを割り当てるために、コンテキスト依存のインテントラベルを使用する。
AgentLens-Benchでは、品質スコアがパストラジェクトリをLucky、Solid、Idealティアに分離し、Lucky Passesを5つの繰り返しメカニズムに分解する。
8つのモデルのバックエンド全体で、ラッキーレートは0.5%から23.2%の範囲であり、パスレートではなく、品質スコアでランク付けされた場合、最大5つのランクで移動するモデルもある。
AgentLens-BenchデータセットとAgentLens SDKを含む匿名プロジェクトリポジトリをhttps://github.com/microsoft/code-agent-state-trajectories/でリリースします。
関連論文リスト
- Scaling Test-Time Compute for Agentic Coding [126.72747643609274]
本稿では,ロールアウト軌跡のコンパクトな表現に基づくエージェントコーディングのためのテスト時間スケーリングフレームワークを提案する。
当社のフレームワークは,各ロールアウトを,その健全な仮説,進捗,障害モードを保存する構造的な要約に変換する。
提案手法は,SWE-Bench Verified および Terminal-Bench v2.0 におけるフロンティア符号化エージェントの性能を一貫して改善する。
論文 参考訳(メタデータ) (2026-04-16T17:39:33Z) - Spec Kit Agents: Context-Grounded Agentic Workflows [0.0]
Spec Kit AgentsはPMと開発者の役割を持つマルチエージェントSDDパイプラインである。
読み取り専用の調査フックは,各ステージにリポジトリのエビデンスを格納する。
検証フックは環境に対する中間成果物をチェックする。
論文 参考訳(メタデータ) (2026-04-07T00:26:49Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications [0.0]
テスト駆動型AIエージェント定義(TDAD)は、エージェントプロンプトをコンパイルされたアーティファクトとして扱う方法論である。
SpecSuite-CoreのTDADは、ポリシーコンプライアンス、グラウンドド・アナリティクス、ランブックの遵守、決定論的強制にまたがる4つのエージェントのベンチマークである。
論文 参考訳(メタデータ) (2026-03-09T18:04:54Z) - RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations [52.752467948588816]
エージェント型マルチモーダル大規模言語モデル(MLLM)であるRSAgentを提案する。
RSAgentはセグメンテーション・ツールボックスをクエリし、視覚的フィードバックを観察し、歴史的観測を用いて空間仮説を改訂し、ターゲットを再ローカライズし、反復的にマスクを洗練させる。
RSAgentはReasonSegテストで66.5% gIoUのゼロショット性能を達成し、Seg-Zero-7Bを9%改善し、RefCOCOgで81.5% cIoUに達した。
論文 参考訳(メタデータ) (2025-12-30T06:50:11Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。