論文の概要: CODESTRUCT: Code Agents over Structured Action Spaces
- arxiv url: http://arxiv.org/abs/2604.05407v1
- Date: Tue, 07 Apr 2026 03:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.618647
- Title: CODESTRUCT: Code Agents over Structured Action Spaces
- Title(参考訳): CODESTRUCT: 構造化アクション空間上のコードエージェント
- Authors: Myeongsoo Kim, Joe Hsu, Dingmin Wang, Shweta Garg, Varun Kumar, Murali Krishna Ramanathan,
- Abstract要約: LLMベースのコードエージェントは、リポジトリを非構造化テキストとして扱い、脆いマッチング文字列を通じて編集を適用する。
我々は、エージェントがテキストスパンではなく名前付きASTエンティティを操作するような構造化されたアクション空間として再フレーミングを提案する。
私たちのフレームワークであるCODESTRUCTは、完全な構文単位を取得するためのreadCodeと、構文検証された変換をセマンティックプログラム要素に適用するためのEditCodeを提供します。
- 参考スコア(独自算出の注目度): 14.039220358416104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based code agents treat repositories as unstructured text, applying edits through brittle string matching that frequently fails due to formatting drift or ambiguous patterns. We propose reframing the codebase as a structured action space where agents operate on named AST entities rather than text spans. Our framework, CODESTRUCT, provides readCode for retrieving complete syntactic units and editCode for applying syntax-validated transformations to semantic program elements. Evaluated on SWE-Bench Verified across six LLMs, CODESTRUCT improves Pass@1 accuracy by 1.2-5.0% while reducing token consumption by 12-38% for most models. Models that frequently fail to produce valid patches under text-based interfaces benefit most: GPT-5-nano improves by 20.8% as empty-patch failures drop from 46.6% to 7.2%. On CodeAssistBench, we observe consistent accuracy gains (+0.8-4.4%) with cost reductions up to 33%. Our results show that structure-aware interfaces offer a more reliable foundation for code agents.
- Abstract(参考訳): LLMベースのコードエージェントは、リポジトリを非構造化テキストとして扱い、不安定な文字列マッチングを通じて編集を適用する。
テキストスパンではなく、名前付きASTエンティティをエージェントが操作する構造化アクション空間としてコードベースをリフレーミングすることを提案する。
私たちのフレームワークであるCODESTRUCTは、完全な構文単位を取得するためのreadCodeと、構文検証された変換をセマンティックプログラム要素に適用するためのEditCodeを提供します。
6つのLLMで検証されたSWE-Benchで評価され、CODESTRUCTはPass@1の精度を1.2-5.0%改善し、ほとんどのモデルではトークン消費を12-38%削減した。
GPT-5-nanoは、空のパッチ失敗が46.6%から7.2%に減少したため、20.8%改善している。
CodeAssistBenchでは、コストを最大33%削減した一貫した精度向上(+0.8-4.4%)を観察した。
以上の結果から,構造対応インタフェースは,より信頼性の高いコードエージェント基盤を提供することがわかった。
関連論文リスト
- BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - CodeFuse-CommitEval: Towards Benchmarking LLM's Power on Commit Message and Code Change Inconsistency Detection [8.631593963090985]
バージョン管理は、コード変更の合理性を伝えるためにコミットメッセージに依存するが、これらのメッセージは、しばしば低品質で、メッセージコード不整合(MCI)として知られる差分と矛盾する。
大規模言語モデル(LLM)を用いたMCI検出のための最初のベンチマークであるCODEFUSE-COMMITEVALを紹介する。
我々は、元々一貫したコミットのルール誘導突然変異を通じて、7種類の一貫性のないメッセージを生成し、正と負の両方のサンプルを検証するために2倍の検証を適用した。
論文 参考訳(メタデータ) (2025-11-25T03:33:57Z) - SLEAN: Simple Lightweight Ensemble Analysis Network for Multi-Provider LLM Coordination: Design, Implementation, and Vibe Coding Bug Investigation Case Study [0.0]
SLEANは、.txtテンプレートを使用してLLM間の単純なプロンプトブリッジとして機能し、デプロイに深い技術知識を必要としない。
独立した分析、相互批判、仲裁によって形成される3フェーズプロトコルは、有害なAI生成コード提案をフィルタリングする。
ファイル駆動でプロバイダに依存しないアーキテクチャは、特別なコーディング専門知識のないデプロイメントを可能にします。
論文 参考訳(メタデータ) (2025-10-11T04:24:04Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data [0.0]
大きな言語モデル(LLM)は強力な生成能力を持つ。
静的事前トレーニング、短いコンテキストウィンドウ、および異種データフォーマットを処理する際の課題によって制限されている。
従来のRetrieval-Augmented Generation (RAG) フレームワークはこれらのギャップのいくつかに対処するが、構造化データや半構造化データに苦慮することが多い。
本研究では,SpaCy NERとクロスエンコーダによるメタデータ認識フィルタリングにより強化された,高密度埋め込み(All-mpnet-base-v2)とBM25を用いたハイブリッド検索戦略を組み合わせた高度なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-16T17:13:06Z) - NL in the Middle: Code Translation with LLMs and Intermediate Representations [56.77064674776534]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。
翻訳精度を向上させるための有望な道の1つは中間表現である。
LLMに基づくコード翻訳が中間表現の恩恵を受けるかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-11T14:29:21Z) - A Preliminary Study on the Robustness of Code Generation by Large Language Models [40.01096420024215]
CoderEvalベンチマークを用いて,LLM生成したコードロバスト性に関する実証的研究を行った。
出力の35.2%は、人間が書いたコードよりも堅牢ではなく、条件チェックの欠如による90%以上の欠陥があることがわかった。
このような問題に対処するため,モデルに依存しないフレームワークであるRobGenを提案する。
論文 参考訳(メタデータ) (2025-03-26T03:44:03Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - ASPIRO: Any-shot Structured Parsing-error-Induced ReprOmpting for
Consistent Data-to-Text Generation [0.0]
ASPIROは、構造化されたデータを0から数ショット設定で短いテンプレート文に変換するアプローチである。
従来の手法とは異なり、我々のアプローチは大規模言語モデルにエンティティに依存しないテンプレートを直接生成するよう促す。
論文 参考訳(メタデータ) (2023-10-27T03:39:51Z) - Benchmarking and Improving Generator-Validator Consistency of Language
Models [82.73914625520686]
言語モデル(LM)において、解答の生成と検証が一般的である矛盾
最先端のLMであるGPT-4でさえ、GVとの共存率はわずか76%である。
このアプローチはAlpaca-30BのGV一貫性を60%から93%に向上させる。
論文 参考訳(メタデータ) (2023-10-03T07:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。