論文の概要: Code Aesthetics with Agentic Reward Feedback
- arxiv url: http://arxiv.org/abs/2510.23272v1
- Date: Mon, 27 Oct 2025 12:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.546722
- Title: Code Aesthetics with Agentic Reward Feedback
- Title(参考訳): エージェントリワードフィードバックを用いたコード美学
- Authors: Bang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei,
- Abstract要約: 大きな言語モデル(LLM)は、コード関連のタスクにおいて開発者にとって貴重なアシスタントになっている。
LLMは視覚的に指向するコーディングタスクに苦労し、しばしば準最適美学を生み出す。
LLM生成コードの美的品質を高めるための新しいパイプラインを導入する。
- 参考スコア(独自算出の注目度): 84.67242022647002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become valuable assistants for developers in code-related tasks. While LLMs excel at traditional programming tasks such as code generation and bug fixing, they struggle with visually-oriented coding tasks, often producing suboptimal aesthetics. In this paper, we introduce a new pipeline to enhance the aesthetic quality of LLM-generated code. We first construct AesCode-358K, a large-scale instruction-tuning dataset focused on code aesthetics. Next, we propose agentic reward feedback, a multi-agent system that evaluates executability, static aesthetics, and interactive aesthetics. Building on this, we develop GRPO-AR, which integrates these signals into the GRPO algorithm for joint optimization of functionality and code aesthetics. Finally, we develop OpenDesign, a benchmark for assessing code aesthetics. Experimental results show that combining supervised fine-tuning on AesCode-358K with reinforcement learning using agentic reward feedback significantly improves performance on OpenDesign and also enhances results on existing benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o and GPT-4.1, and achieves performance comparable to large open-source models with 480B-685B parameters, underscoring the effectiveness of our approach.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コード関連のタスクにおいて開発者にとって貴重なアシスタントになっている。
LLMはコード生成やバグ修正といった従来のプログラミングタスクに優れていますが、視覚的に指向するコーディングタスクに苦労し、しばしば準最適美学を生み出します。
本稿では,LLM生成コードの美的品質を高めるための新しいパイプラインを提案する。
まず,コード美学に焦点を当てた大規模インストラクションチューニングデータセットであるAesCode-358Kを構築した。
次に,エージェント報酬フィードバック,実行可能性,静的美学,インタラクティブ美学を評価するマルチエージェントシステムを提案する。
そこで我々は,これらの信号をGRPOアルゴリズムに統合したGRPO-ARを開発し,機能とコード美学を協調的に最適化する。
最後に、コード美学を評価するためのベンチマークであるOpenDesignを開発する。
AesCode-358Kの教師付き微調整とエージェント報酬フィードバックを用いた強化学習を組み合わせることで,OpenDesignの性能が大幅に向上し,PandasPlotBenchなどの既存ベンチマークのパフォーマンスが向上することを示す。
AesCoder-4B は GPT-4o と GPT-4.1 を上回り、480B-685B パラメータを持つ大規模なオープンソースモデルに匹敵する性能を実現し、我々のアプローチの有効性を裏付ける。
関連論文リスト
- DesignCoder: Hierarchy-Aware and Self-Correcting UI Code Generation with Large Language Models [17.348284143568282]
DesignCoderは、階層的かつ自己修正の自動化コード生成フレームワークである。
複雑なネストUI階層を理解し予測するMLLMの能力を向上するUI Grouping Chainsを導入する。
また、生成したコードのエラーを特定し、修正するモデルの能力を改善するための自己補正機構も組み込んでいます。
論文 参考訳(メタデータ) (2025-06-16T16:20:43Z) - Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs [1.8838588087156363]
本稿では,コード生成型大規模言語モデル(LLM)の微調整について検討する。
我々は,シンボル実行手法の助けを借りて,報酬モデルのトレーニングデータを強化する。
このデータセットを微調整した報奨モデルでは、ベースラインであるCodeRLよりも大幅に改善されていることが示されています。
論文 参考訳(メタデータ) (2025-04-21T16:29:07Z) - On Iterative Evaluation and Enhancement of Code Quality Using GPT-4o [1.5960340244043023]
本稿では,Large Language Models (LLM) を利用したコード品質の反復評価と向上のための新しいフレームワークであるCodeQUESTを紹介する。
フレームワークは2つの主要なコンポーネントに分割されている。10次元にわたるコード品質を評価し、定量スコアと定性的な要約の両方を提供する評価器。
本研究は,CodeQUESTが既存のコード品質指標と整合して,コード品質を効果的かつ堅牢に評価できることを実証する。
論文 参考訳(メタデータ) (2025-02-11T09:27:00Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - E-code: Mastering Efficient Code Generation through Pretrained Models and Expert Encoder Group [16.86051578498044]
本研究は,この領域における研究ギャップに対処し,遭遇した様々な課題に対する実践的な解決策を提供することを目的としている。
具体的には、従来の性能エラー修正戦略の制約を克服し、競合するコード効率最適化領域に適した言語モデル(LM)を開発した。
論文 参考訳(メタデータ) (2024-08-23T09:57:37Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [111.01953096869947]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上に視覚的指導チューニングが不可欠である
我々は,高品質な視覚的推論命令を自動生成する体系的手法を開発した。
実験結果から, MLLMの強化性能が一貫した結果を得た。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。