論文の概要: Selective Code Generation for Functional Guarantees
- arxiv url: http://arxiv.org/abs/2505.13553v1
- Date: Mon, 19 May 2025 06:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.435498
- Title: Selective Code Generation for Functional Guarantees
- Title(参考訳): 機能保証者のための選択コード生成
- Authors: Jaewoo Jeong, Taesoo Kim, Sangdon Park,
- Abstract要約: 大規模言語モデル(LLM)は、人間レベルのパフォーマンスを示し、その特別な子孫、コード生成モデルが複雑なタスクを解決する上でコアとなる役割を担っている。
コード生成モデルの幻覚はめったに考慮されない。
- 参考スコア(独自算出の注目度): 13.0038589319782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show human-level performance and their specialized descendants, code generation models, play core roles in solving complex tasks, including mathematical reasoning and software development. On the downside, the hallucination of LLMs mainly hinders their applicability to systems requiring higher safety standards, thus drawing the attention of the AI community. However, the hallucination of code generation models is rarely considered. One critical bottleneck in considering code hallucination is the intricate property of code to identify whether generated code has the intended functionality due to its un-natural form, different to natural languages. Handful of unit tests have been considered to address this issue, but scaling-up its size is extremely expensive. We address this core bottleneck by automatically generating unit tests using dynamic code analysis tools, which leverages the \emph{executable nature} of code. Given generated unit tests from true code for measuring functional correctness of generated code, we propose to learn a \emph{selective code generator}, which abstains from answering for unsure generation, to control the rate of code hallucination among non-abstaining answers in terms of a false discovery rate. This learning algorithm provides a controllability guarantee, providing trustworthiness of code generation. Finally, we propose to use generated unit tests in evaluation as well as in learning for precise code evaluation, calling this evaluation paradigm \emph{FuzzEval}. We demonstrate the efficacy of our selective code generator over open and closed code generators, showing clear benefit of leveraging generated unit tests along with the controllability of code hallucination and reasonable selection efficiency via our selective code generator.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間レベルのパフォーマンスを示し、その特別な子孫、コード生成モデル(英語版)は、数学的推論やソフトウェア開発を含む複雑なタスクの解決における中核的な役割を担っている。
マイナス面として、LLMの幻覚は、安全基準の高いシステムに適用性を妨げるため、AIコミュニティの注目を集めている。
しかし、コード生成モデルの幻覚はめったに考慮されない。
コード幻覚を考える上で重要なボトルネックは、生成したコードが意図した機能を持っているかどうかを判断するコードの複雑な性質である。
単体テストの便利さはこの問題に対処すると考えられてきたが、スケールアップの規模は非常に高価である。
動的コード解析ツールを使用して、コードのemph{executable nature}を活用するユニットテストを自動的に生成することで、このボトルネックに対処する。
生成したコードの関数的正当性を測定するために生成した実コードから生成した単体テストについて,不確実な生成に対する応答を排除し,不確実な発見率で非持続的な解の幻覚率を制御することを提案する。
この学習アルゴリズムは、制御可能性を保証するとともに、コード生成の信頼性を提供する。
最後に,この評価パラダイムを「emph{FuzzEval}」と呼んでいる。
オープンおよびクローズドなコードジェネレータに対する選択コードジェネレータの有効性を実証し、コード幻覚の制御性および選択コードジェネレータによる適切な選択効率とともに、生成した単体テストを活用する利点を明らかにした。
関連論文リスト
- GenX: Mastering Code and Test Generation with Execution Feedback [7.225594526057816]
本稿では,コード生成モデルとテスト生成モデルを同時にトレーニングする新しい手法を提案する。
テストデータとコードデータの増大のための2つの戦略と、コードとテストランキングのための新しいスコアリング機能を導入します。
その結果、我々のモデルは、テストケースやコードソリューションの数の増加で反復的にトレーニングされた場合、元のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-18T03:18:21Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Test-Driven Development for Code Generation [0.850206009406913]
大きな言語モデル(LLM)は、問題ステートメントから直接コードスニペットを生成する重要な機能を示している。
本稿では,テスト駆動開発(TDD)をAI支援コード生成プロセスに組み込む方法について検討する。
論文 参考訳(メタデータ) (2024-02-21T04:10:12Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。