論文の概要: CRANE: Constrained Reasoning Injection for Code Agents via Nullspace Editing
- arxiv url: http://arxiv.org/abs/2605.14084v1
- Date: Wed, 13 May 2026 20:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.491696
- Title: CRANE: Constrained Reasoning Injection for Code Agents via Nullspace Editing
- Title(参考訳): CRANE: Nullspace編集によるコードエージェントの制約付き推論インジェクション
- Authors: Mingzhi Zhu, Michele Merler, Raju Pavuluri, Stacy Patterson,
- Abstract要約: CRANEは、シンキング・インストラクトデルタを、インストラクトバックボーンの候補推論編集のプールとして扱う、トレーニング不要なパラメータ編集手法である。
ペア化されたインストラクトとシンキングのチェックポイントを組み合わせることで、CRANEはどちらのモデルよりも強力なゲインを提供する。
- 参考スコア(独自算出の注目度): 5.661334639541121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code agents must both reason over long-horizon repository state and obey strict tool-use protocols. In paired Instruct/Thinking checkpoints, these capabilities are complementary but misaligned. The Instruct model is concise and tool-disciplined, whereas the Thinking model offers stronger planning and recovery behavior but often over-deliberates and degrades agent performance. We present CRANE (Constrained Reasoning Injection for Code Agents via Nullspace Editing), a training-free parameter-editing method that treats the Thinking-Instruct delta as a directional pool of candidate reasoning edits for the Instruct backbone. CRANE combines magnitude thresholding to denoise the delta, a Conservative Taylor Gate to retain edits that are jointly beneficial for reasoning transfer and tool-use preservation, and Graduated Sigmoidal Projection to suppress format-critical update directions. By merging paired Instruct and Thinking checkpoints, CRANE delivers strong gains over either individual model while preserving Instruct-level efficiency: on Roo-Eval it achieves pass1 of 66.2% (+19.5%) for Qwen3-30B-A3B and 81.5% (+8.7%) for Qwen3-Next-80B-A3B; on SWE-bench-Verified it resolves up to 14 additional instances at both scales (122/500 and 180/500); and on Terminal-Bench v2 it improves pass1/pass5 by up to 2.3%/7.8%, reaching 7.6%/17.9% and 14.8%/30.3%, respectively, consistently outperforming alternative merging strategies across all three benchmarks.
- Abstract(参考訳): コードエージェントは、長期のリポジトリ状態を理由付け、厳格なツール使用プロトコルに従う必要がある。
ペア化されたインストラクション/シンキングチェックポイントでは、これらの機能は相補的だが不一致である。
インストラクトモデルは簡潔でツールが専門であり、シンキングモデルはより強力な計画と回復行動を提供するが、しばしば過度に検討し、エージェントのパフォーマンスを低下させる。
本稿では,CRANE (Constrained Reasoning Injection for Code Agents via Nullspace Editing)を提案する。
CRANEは、デルタを飾るためにマグニチュードしきい値と、転送とツール使用の保存を推論するために共同で有用な編集を保持する保守的なテイラーゲートと、フォーマットクリティカルな更新方向を抑えるためにSigmoidal Projectionを組み合わせている。
Roo-EvalではQwen3-30B-A3Bが66.2%(+19.5%)、Qwen3-Next-80B-A3Bが81.5%(+8.7%)、SWE-bench-Verifiedでは2つのスケールで最大14のインスタンスを解決し(122/500と180/500)、 Terminal-Bench v2ではパス1/pass5を最大2.3%改善し、それぞれ7.6%/179%、14.8%/303%に達した。
関連論文リスト
- StepCodeReasoner: Aligning Code Reasoning with Stepwise Execution Traces via Reinforcement Learning [16.3498616105159]
本稿では,SteepCodeReasonerを提案する。
構造化されたプリントベースの実行トレースアンカーをコードに自動的に挿入することで、モデルは各ステップで実行状態を予測するようにトレーニングされる。
また、コード生成性能も向上し、明示的な実行モデリングがコード推論とコード生成の両方を強化していることを示す。
論文 参考訳(メタデータ) (2026-05-12T10:36:56Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
Agentic Harness Engineering (AHE)は、ハーネスエンジニアリングを自動化するクローズドループである。
AHEは3つの一致した可観測性柱を通じて課題に対処する。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
SWE-bench-verifiedでは、種子よりも12%少ないトークンで合計成功率を上回り、ターミナルベンチ2では+5.1から+10.1ppのクロスファミリーゲインを得る。
論文 参考訳(メタデータ) (2026-04-28T16:55:02Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - CIFE: Code Instruction-Following Evaluation [3.941243815951084]
我々は1,000のPythonタスクのベンチマークを導入し、それぞれが13のカテゴリにまたがる平均7つの開発者指定制約とペアリングした。
補完的付着度を用いて14個のオープンソース・クローズド・ソース・モデルを評価し,C2Aスコア(C2A Score)を提案する。
その結果、部分的満足度と厳密な満足度の間には実質的なギャップがみられ、強いモデルは90%以上の部分的密着性を達成する一方、厳密な密着性は39-66%に留まった。
論文 参考訳(メタデータ) (2025-12-19T09:43:20Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。