論文の概要: CodeTaste: Can LLMs Generate Human-Level Code Refactorings?
- arxiv url: http://arxiv.org/abs/2603.04177v1
- Date: Wed, 04 Mar 2026 15:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.372513
- Title: CodeTaste: Can LLMs Generate Human-Level Code Refactorings?
- Title(参考訳): CodeTaste: LLMは人間レベルのコードリファクタリングを生成することができるか?
- Authors: Alex Thillen, Niels Mündler, Veselin Raychev, Martin Vechev,
- Abstract要約: 大規模言語モデル(LLM)コーディングエージェントは、動作するコードを生成することができるが、そのソリューションはしばしば複雑さ、重複、アーキテクチャ上の負債を蓄積する。
人間開発者はこのような問題に対処する: 構造と保守性を改善する行動保存プログラム。
オープンソースリポジトリの大規模マルチファイル変更から抽出したタスクのベンチマークであるCodeTasteを紹介する。
- 参考スコア(独自算出の注目度): 2.447746234944228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) coding agents can generate working code, but their solutions often accumulate complexity, duplication, and architectural debt. Human developers address such issues through refactoring: behavior-preserving program transformations that improve structure and maintainability. In this paper, we investigate if LLM agents (i) can execute refactorings reliably and (ii) identify the refactorings that human developers actually chose in real codebases. We present CodeTaste, a benchmark of refactoring tasks mined from large-scale multi-file changes in open-source repositories. To score solutions, we combine repository test suites with custom static checks that verify removal of undesired patterns and introduction of desired patterns using dataflow reasoning. Our experimental results indicate a clear gap across frontier models: agents perform well when refactorings are specified in detail, but often fail to discover the human refactoring choices when only presented with a focus area for improvement. A propose-then-implement decomposition improves alignment, and selecting the best-aligned proposal before implementation can yield further gains. CodeTaste provides an evaluation target and a potential preference signal for aligning coding agents with human refactoring decisions in realistic codebases.
- Abstract(参考訳): 大規模言語モデル(LLM)コーディングエージェントは、動作するコードを生成することができるが、そのソリューションはしばしば複雑さ、重複、アーキテクチャ上の負債を蓄積する。
人間開発者はリファクタリングによってこのような問題に対処する: 構造と保守性を改善する行動保存プログラム変換。
本稿では, LLM エージェントについて検討する。
i) リファクタリングを確実に実行でき、かつ、
(ii) 実際のコードベースで人間が実際に選択したリファクタリングを識別する。
オープンソースリポジトリの大規模マルチファイル変更から抽出したリファクタリングタスクのベンチマークであるCodeTasteを紹介する。
ソリューションを評価するために、私たちは、望ましくないパターンの削除とデータフロー推論を用いた望ましいパターンの導入を検証するカスタムの静的チェックとリポジトリテストスイートを組み合わせています。
エージェントは、リファクタリングの詳細が特定されたときにうまく機能するが、改善のための焦点領域のみを提示した場合に、人間のリファクタリング選択を見つけるのに失敗することが多い。
提案実装分解によりアライメントが向上し,実装前のベストアライメント提案を選択することで,さらなる利得が得られる。
CodeTasteは、現実的なコードベースにおいて、コードエージェントと人間のリファクタリング決定を整合させるための評価ターゲットと潜在的な選好信号を提供する。
関連論文リスト
- SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring [20.694251041823097]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに取り組むことに広く関心を集めている。
既存のベンチマークは一般的に3つの欠点に悩まされる。
SWE-Refactor は開発者によって書かれた 18 の Java プロジェクトから抽出された 1,099 の挙動保存 LLM で構成されている。
論文 参考訳(メタデータ) (2026-02-03T16:36:29Z) - How do Agents Refactor: An Empirical Study [2.7711196026307476]
Javaにおけるエージェントプルリクエストの最初の分析結果を示す。
タイプを特定し、コミット前後のコードの臭いを検知します。
我々はCursorが、統計的に有意な臭いの増加を示す唯一のモデルであると考えている。
論文 参考訳(メタデータ) (2026-01-28T01:34:15Z) - AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - Refactoring with LLMs: Bridging Human Expertise and Machine Understanding [5.2993089947181735]
我々はMartin Fowler氏のガイドラインに基づいて、61のよく知られた変換型の命令戦略を設計する。
これらの戦略は、GitHubプロジェクトのベンチマーク例と実世界のコードスニペットに基づいて評価する。
記述的命令は人間にとってより解釈しやすいが,本研究の結果から,ルールに基づく命令が特定のシナリオにおいてより優れたパフォーマンスをもたらすことがしばしば示されている。
論文 参考訳(メタデータ) (2025-10-04T19:40:42Z) - Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文 参考訳(メタデータ) (2025-07-14T02:36:27Z) - Refactoring Codebases through Library Design [21.039476331720312]
成長と再利用性をサポートする方法でコードに対するコードエージェントの能力を調べる。
本稿では,再利用可能なライブラリを生成するためのベンチマークと手法を提案する。
我々は,ライブラリと最先端のライブラリ生成手法を比較し,それを実世界のコードベースで研究する。
論文 参考訳(メタデータ) (2025-05-26T07:26:33Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Do code refactorings influence the merge effort? [80.1936417993664]
複数のコントリビュータがソースコードを並行して変更して,新機能の実装やバグの修正,既存のコードの変更などを行っている。
これらの同時変更は、ソースコードの同じバージョンにマージする必要がある。
研究によると、すべてのマージの試みの10~20%が衝突を起こしており、これはプロセスを完了するために手動開発者の介入を必要とする。
論文 参考訳(メタデータ) (2023-05-10T13:24:59Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - How We Refactor and How We Document it? On the Use of Supervised Machine
Learning Algorithms to Classify Refactoring Documentation [25.626914797750487]
リファクタリングは、外部の振る舞いを変えることなく、システムの設計を改善する技術である。
この研究はコミットを、従来のBugFixやFunctionalのカテゴリとともに、内部QA、外部QA、Code Smell Resolutionの3つのカテゴリに分類する。
分類結果をよりよく理解するために、私たちはコミットメッセージを分析して、開発者が定期的に臭いを説明するために使用するパターンを抽出しました。
論文 参考訳(メタデータ) (2020-10-26T20:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。