論文の概要: Converted, Not Equivalent: Benchmarking Codebase Conversion via Observational Equivalence
- arxiv url: http://arxiv.org/abs/2605.29054v2
- Date: Wed, 03 Jun 2026 18:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.587487
- Title: Converted, Not Equivalent: Benchmarking Codebase Conversion via Observational Equivalence
- Title(参考訳): 等価でない変換:観測等価性によるコードベース変換のベンチマーク
- Authors: Linxin Song, Jiefeng Chen, Yue Huang, Bhavana Dalvi Mishra, Chi Wang, Jieyu Zhao, Jinsung Yoon, Tomas Pfister,
- Abstract要約: コーディングエージェントは、しばしば自身のローカル検証ルーチンを過度に信頼し、表面チェックを満たすアーティファクトの成功を宣言する。
この問題は、事前評価が結果駆動である変換において特に深刻である。
ブラインド・コンバージョンは26.7-28.9%に達し、スペック・パスレートは91.1%まで上昇した。
このことは、失敗は限られた予算やバックボーンの強さよりも、契約ミスによる自己検証に起因していることを示唆している。
- 参考スコア(独自算出の注目度): 56.25095230687242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding agents increasingly act as codebase-scale collaborators that can assist with codebase conversion, but this progress has exposed a critical weakness: agents often over-trust their own local validation routines and declare success on artifacts that satisfy surface checks while violating the semantic contracts users actually care about. This problem is especially acute in codebase conversion, where prior evaluation is largely outcome-driven and therefore unstable: two implementations can match on a shallow outcome, such as a single forward loss, while diverging in gradients, optimizer behavior, or short-horizon training dynamics. We introduce T2J-Bench, a benchmark for codebase conversion that reformulates conversion as transfer under a fixed equivalence contract. A fixed verifier then compares source and converted codebases through three ordered stages: Spec (interface admissibility), Numeric (forward outputs, losses, gradients, and objective-specific tensors), and Behavioral (short training dynamics under fixed seeds). Across 355 blind conversion attempts, the best system reaches only 26.7--28.9% overall pass rate despite Spec pass rates up to 91.1%; a 4.7x token-budget spread yields only a 2.2x pass-rate spread; and all systems overestimate success by 66.6--97.8 points relative to the fixed evaluator. This suggests that failures stem more from contract-misaligned self-validation than from limited budget or backbone strength.
- Abstract(参考訳): コーディングエージェントはコードベースの変換を支援するコードベーススケールのコラボレータとしての役割をますます高めているが、この進歩は重大な弱点を露呈している。エージェントは、しばしば自身のローカル検証ルーチンを過度に信頼し、ユーザが実際に関心を持っているセマンティックコントラクトに違反しながら、表面チェックを満たすアーティファクトに成功を宣言する。
2つの実装は、勾配のばらつき、最適化動作、短期訓練のダイナミクスなど、単一の前方損失のような浅い結果にマッチする。
固定等価契約下での変換を変換として再構成するコードベース変換のベンチマークであるT2J-Benchを紹介する。
固定検証器は、ソースと変換されたコードベースを、仕様(顔の許容性)、数値(前向きの出力、損失、勾配、客観的なテンソル)、行動(固定シードの下でのショートトレーニングダイナミクス)の3つの順序で比較する。
355回のブラインドコンバージョンの試みでは、Specのパスレートが91.1%に達するにもかかわらず、最高のシステムは26.7--28.9%にしか達せず、4.7倍のトークン・バッジのスプレッドは2.2倍のパスレートしか得られず、全てのシステムは固定評価器と比較して66.6--97.8ポイントの成功を過大評価している。
このことは、失敗は限られた予算やバックボーンの強さよりも、契約ミスによる自己検証に起因していることを示唆している。
関連論文リスト
- CRANE: Constrained Reasoning Injection for Code Agents via Nullspace Editing [5.661334639541121]
CRANEは、シンキング・インストラクトデルタを、インストラクトバックボーンの候補推論編集のプールとして扱う、トレーニング不要なパラメータ編集手法である。
ペア化されたインストラクトとシンキングのチェックポイントを組み合わせることで、CRANEはどちらのモデルよりも強力なゲインを提供する。
論文 参考訳(メタデータ) (2026-05-13T20:09:35Z) - StepCodeReasoner: Aligning Code Reasoning with Stepwise Execution Traces via Reinforcement Learning [16.3498616105159]
本稿では,SteepCodeReasonerを提案する。
構造化されたプリントベースの実行トレースアンカーをコードに自動的に挿入することで、モデルは各ステップで実行状態を予測するようにトレーニングされる。
また、コード生成性能も向上し、明示的な実行モデリングがコード推論とコード生成の両方を強化していることを示す。
論文 参考訳(メタデータ) (2026-05-12T10:36:56Z) - Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
Agentic Harness Engineering (AHE)は、ハーネスエンジニアリングを自動化するクローズドループである。
AHEは3つの一致した可観測性柱を通じて課題に対処する。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
SWE-bench-verifiedでは、種子よりも12%少ないトークンで合計成功率を上回り、ターミナルベンチ2では+5.1から+10.1ppのクロスファミリーゲインを得る。
論文 参考訳(メタデータ) (2026-04-28T16:55:02Z) - A Benchmark for Evaluating Repository-Level Code Agents with Intermediate Reasoning on Feature Addition Task [11.218318079376365]
RACE-benchは、機能追加タスクでコードエージェントを評価するための推論強化ベンチマークである。
RACE-benchには、12のオープンソースリポジトリから528の現実世界の機能追加インスタンスが含まれている。
RACE-bench上での3つのリポジトリレベルのコードエージェントの評価を行った。
論文 参考訳(メタデータ) (2026-03-27T11:58:47Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - Scaling the Scaling Logic: Agentic Meta-Synthesis of Logic Reasoning [18.75349680577575]
SSLogicは、コントロール可能な困難を伴う継続的家族進化のためのフレームワークである。
SSLogicに進化したデータのトレーニングは、一致したステップでシードベースラインに対して一貫した利得を得る。
論文 参考訳(メタデータ) (2026-01-23T13:26:01Z) - Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding [58.92526489742584]
我々は無益な無益な提案をする。
承認されたトークンの数を大幅に増加させる検証方法。
HSDは様々なモデルファミリやベンチマークの受け入れ率に一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-09T11:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。