論文の概要: Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks
- arxiv url: http://arxiv.org/abs/2606.02875v1
- Date: Mon, 01 Jun 2026 20:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.598632
- Title: Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks
- Title(参考訳): ハンドオフの負債: エージェントが中断したタスクを乗っ取ると、コストが悪くなる
- Authors: Dipesh KC, Anjila Budathoki,
- Abstract要約: 他のエージェントやエンジニアが残した部分的な状態からタスクを中断し、再割り当てし、レビューし、再開するからです。
前任者の作業が不透明あるいは不完全である場合に課される再検討コスト。
我々の乗っ取りプロトコルは、決定論的ハンドオフポイントで符号化エージェントを中断し、リポジトリを凍結し、4つのハンドオフビューで後継エージェントを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding-agent benchmarks evaluate whether a single uninterrupted agent can resolve a repository issue. Real software work is messier: tasks are interrupted, reassigned, reviewed, and resumed from partial states left by another agent or engineer. We study this missing dimension through \emph{handoff debt}: the rediscovery cost imposed when a predecessor's work is opaque or incomplete. Our takeover protocol interrupts a coding agent at deterministic handoff points, freezes the repository, and evaluates successor agents under four handoff views: repository state only, raw trace, summary notes, and structured notes. Across 75 source tasks, the protocol generates 181 handoff-point tasks and 724 takeover runs per successor model. Across three successor models, context-bearing handoffs reduce median agent events by 20--59\% and cumulative prompt tokens by 42--63\% relative to repository-only takeover. Solved-rate effects are smaller and model-dependent, but efficiency gains are consistent. These findings suggest that coding-agent evaluation should report not only whether a task is solved, but also how costly that work is for another agent to resume.
- Abstract(参考訳): コーディングエージェントベンチマークは、単一の未中断エージェントがリポジトリの問題を解決することができるかどうかを評価する。
タスクは中断され、再割り当てされ、レビューされ、他のエージェントやエンジニアが残した部分的な状態から再開されます。
我々は、前任者の作業が不透明または不完全である場合に課される再粘性コストである「emph{handoff debt}」を通じて、この欠落次元について研究する。
我々の乗っ取りプロトコルは、決定論的ハンドオフポイントのコーディングエージェントを中断し、リポジトリを凍結し、後継エージェントを4つのハンドオフビュー(リポジトリ状態のみ、生トレース、要約ノート、構造化ノート)で評価する。
75のソースタスクにまたがって、プロトコルは181のハンドオフポイントタスクを生成し、724の乗っ取りが後継モデル毎に実行される。
3つの後継モデルにおいて、コンテキスト対応ハンドオフは中央値エージェントイベントを20-59\%、累積プロンプトトークンを42-63\%削減する。
解速効果は小さく、モデルに依存しているが、効率の利得は一貫している。
これらの結果から, コーディングエージェント評価は, 課題が解決されただけでなく, 作業の再開に要するコストを報告すべきであることが示唆された。
関連論文リスト
- The Best-Laid SCHEMEs: Coordinated Sabotage and Monitoring in Multi-Agent Systems [0.0]
SCHEMEは7つの設定と8つの実際のオープンソースライブラリにわたる17のタスクインスタンスのベンチマークである。
各設定は、エージェントの適切なサブセットが単独で成功しないように設計されている。
GPT 5.1 Codex と Gemini 3.1 Pro ですでに協調サボタージュが実用化されていることを示す。
論文 参考訳(メタデータ) (2026-05-27T23:30:21Z) - Persistent AI Agents in Academic Research: A Single-Investigator Implementation Case Study [0.0]
分析の単位は、研究者、エージェント、メモリ層、ツール、リポジトリ、スケジュールされたジョブ、特殊なエージェントロール、ガバナンスルールといった、永続的なヒューマンエージェント環境であった。
2026年5月、厳格なトラジェクトリ・サブセットが627のモデル関連イベントと7395万のトークンをキャプチャし、そのうち82.9%がキャッシュ読み取りだった。
論文 参考訳(メタデータ) (2026-05-26T11:28:36Z) - RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations [51.43574078961796]
本稿では,SWE-Bench Verified上に構築された2段階評価スイートRepoMirageを紹介する。
RepoMirage-Perturbは、リポジトリレベルの摂動を保存する3つのタイプのセマンティクスを適用している。
RepoAnchorは、下流の問題解決からリポジトリの探索を分離する構造第一のプロトタイプワークフローである。
論文 参考訳(メタデータ) (2026-05-25T06:26:43Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation [11.272830796781925]
8つのモデルバックエンドから60個のSWEベンチ検証タスクの2,614個のOpenHandsトラジェクトリを評価した。
このサブセットで通過する軌道の中で、10.7%はラッキーパスと呼ばれる振る舞いを示す。
本稿では,SWEエージェント軌道のプロセスレベル評価フレームワークであるAgentLensを紹介する。
論文 参考訳(メタデータ) (2026-05-13T03:00:57Z) - EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents [75.01735520608075]
既存のベンチマークは、直観的信念を問うことで、主にリテラル・オブ・マインド(ToM)をテストする。
EnactToMは, 3D 家庭で設定された300個のマルチエージェントタスクの進化ベンチマークである。
ハードスプリットでは、7つの評価されたフロンティアモデルすべてが機能的なタスク完了時に0.0%のPass3を獲得し、リテラルな信念プローブでは平均45.0%であった。
論文 参考訳(メタデータ) (2026-05-11T00:04:19Z) - BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases [0.0]
BUILD-AND-FINDは、下流エージェントが生成されたリポジトリから意図した選択を復元できるかどうかを評価するプロトコルである。
各タスクに対して、ビルダーは隠されたリポジトリの仕様を見て、仕様に書かれた複数選択の質問バンクを作成します。
このプロトコルは、行動の正しさをアーティファクト側のリカバリから切り離し、リカバリの正確性、再現性、実装のカバレッジ、検査の労力を報告します。
論文 参考訳(メタデータ) (2026-05-07T12:35:27Z) - A Benchmark for Evaluating Repository-Level Code Agents with Intermediate Reasoning on Feature Addition Task [11.218318079376365]
RACE-benchは、機能追加タスクでコードエージェントを評価するための推論強化ベンチマークである。
RACE-benchには、12のオープンソースリポジトリから528の現実世界の機能追加インスタンスが含まれている。
RACE-bench上での3つのリポジトリレベルのコードエージェントの評価を行った。
論文 参考訳(メタデータ) (2026-03-27T11:58:47Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。