論文の概要: Aligning Requirement for Large Language Model's Code Generation
- arxiv url: http://arxiv.org/abs/2509.01313v1
- Date: Mon, 01 Sep 2025 09:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.629716
- Title: Aligning Requirement for Large Language Model's Code Generation
- Title(参考訳): 大規模言語モデルのコード生成に必要な調整
- Authors: Zhao Tian, Junjie Chen,
- Abstract要約: Specineは、大規模言語モデル(LLM)コード生成のための新しい仕様アライメント技術である。
その鍵となる考え方は、不整合入力仕様を特定し、LLMが認識した仕様を引き上げ、LLMのコード生成性能を高めるためにそれらを整合させることである。
例えば、Specineは最も効果的なベースラインを上回り、Pass@1ですべての被験者の平均29.60%の改善を達成した。
- 参考スコア(独自算出の注目度): 9.205909320363247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation refers to the automatic generation of source code based on a given programming specification, which has garnered significant attention particularly with the advancement of large language models (LLMs). However, due to the inherent complexity of real-world problems, the LLM-generated code often fails to fully align with the provided specification. While state-of-the-art agent-based techniques have been proposed to enhance LLM code generation, they overlook the critical issue of specification perception, resulting in persistent misalignment issues. Given that accurate perception of programming specifications serves as the foundation of the LLM-based code generation paradigm, ensuring specification alignment is particularly crucial. In this work, we draw on software requirements engineering to propose Specine, a novel specification alignment technique for LLM code generation. Its key idea is to identify misaligned input specifications, lift LLM-perceived specifications, and align them to enhance the code generation performance of LLMs. Our comprehensive experiments on four state-of-the-art LLMs across five challenging competitive benchmarks by comparing with ten state-of-the-art baselines, demonstrate the effectiveness of Specine. For example, Specine outperforms the most effective baseline, achieving an average improvement of 29.60\% across all subjects in terms of Pass@1.
- Abstract(参考訳): コード生成とは、与えられたプログラム仕様に基づいてソースコードを自動生成することであり、特に大規模言語モデル(LLM)の進歩に顕著な注目を集めている。
しかし、現実の問題の本質的な複雑さのため、LLM生成コードは提供された仕様と完全に一致しないことが多い。
LLMのコード生成を改善するために最先端のエージェントベースの技術が提案されているが、仕様認識の重要な問題を見落とし、永続的なミスアライメント問題を引き起こしている。
プログラミング仕様の正確な認識がLLMベースのコード生成パラダイムの基礎となることを考えると、仕様の整合性を保証することが特に重要です。
本研究では,LLM コード生成のための新しい仕様アライメント手法であるSpecine を提案するために,ソフトウェア要件エンジニアリングを取り上げている。
そのキーとなる考え方は、ミスマッチした入力仕様を特定し、LLMが認識した仕様を持ち上げ、LLMのコード生成性能を高めるためにそれらを整列させることである。
筆者らは,5つの挑戦的競争ベンチマークにおける4つの最先端LCMに関する総合的な実験を,10の最先端ベースラインと比較し,Specineの有効性を実証した。
例えば、Specineは最も効果的なベースラインを上回り、Pass@1ですべての被験者の平均29.60\%の改善を達成した。
関連論文リスト
- Uncovering Systematic Failures of LLMs in Verifying Code Against Natural Language Specifications [0.6813925418351435]
大規模言語モデル(LLM)はソフトウェア開発において不可欠なツールとなり、要求工学、コード生成、レビュータスクに広く利用されている。
本稿では,LLMが自然言語の要求に適合するかどうかを評価する上で,体系的に失敗していることを明らかにする。
以上の結果から,LCMは要件を満たすことのできないコード実装や潜在的な欠陥を含むコード実装を誤って分類することが多いことが判明した。
論文 参考訳(メタデータ) (2025-08-17T13:07:26Z) - Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。
本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文 参考訳(メタデータ) (2025-02-19T17:53:59Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences [5.165576022684194]
LLM-as-a-Judge法を用いて、LLMと符号化優先のアライメントを評価する。
CodeUltraFeedbackは1万のコード命令で構成され、それぞれに14 LLMの多様なプールから生成される4つの応答が注釈付けされている。
次に、教師付き微調整(SFT)とAIフィードバックからの強化学習(RLAIF)を用いたCodeLlama-7B-Instructの微調整のためのフィードバックデータとしてのCodeUltraFeedbackの利用について検討する。
論文 参考訳(メタデータ) (2024-03-14T01:51:35Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。