論文の概要: Selective Prompt Anchoring for Code Generation
- arxiv url: http://arxiv.org/abs/2408.09121v4
- Date: Fri, 21 Feb 2025 03:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:04.342922
- Title: Selective Prompt Anchoring for Code Generation
- Title(参考訳): コード生成のための選択型プロンプトアンカリング
- Authors: Yuan Tian, Tianyi Zhang,
- Abstract要約: 大規模な言語モデル(LLM)は、より多くのコードトークンが生成されるにつれて、ユーザのプロンプトに注意を払わなくなる傾向があることを示す。
ユーザ意図にもっと注意を払うために,LLM をガイドする Selective Prompt Anchoring (SPA) を提案する。
以上の結果から,SPAはPass@1を最大12.9%向上させることがわかった。
- 参考スコア(独自算出の注目度): 11.60432173396084
- License:
- Abstract: Recent advances in large language models (LLMs) have transformed software development by automatically generating code from natural language. Yet challenges remain in generating fully correct code that aligns with user intent. Our study reveals that LLMs tend to pay less attention to user prompts as more code tokens are generated. We hypothesize that this attention dilution issue is an important reason for code generation errors. To mitigate this issue, we propose Selective Prompt Anchoring (SPA) to guide code LLMs to pay more attention to user intent when generating code. We evaluate SPA using six base LLMs across six benchmarks. Our results demonstrate that SPA enhances Pass@1 by up to 12.9%, consistently outperforming SOTA code generation methods in all settings. Our code is available at https://github.com/magic-YuanTian/Selective-Prompt-Anchoring.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、自然言語からコードを自動的に生成することでソフトウェア開発を変革している。
しかし、ユーザの意図に合わせて完全に正しいコードを生成することには、依然として課題が残っています。
我々の研究によると、LLMはより多くのコードトークンが生成されるにつれて、ユーザのプロンプトに注意を払わない傾向にある。
この注意の希釈問題は、コード生成エラーの重要な原因である、という仮説を立てる。
この問題を軽減するため,コード生成時のユーザ意図により注意を払うために,LLMをガイドするSPA(Selective Prompt Anchoring)を提案する。
我々は,SPAを6つのベンチマークで6つのベースLLMを用いて評価した。
我々の結果は、SPAがPass@1を最大12.9%向上させ、すべての設定でSOTAコード生成メソッドを一貫して上回っていることを示している。
私たちのコードはhttps://github.com/magic-YuanTian/Selective-Prompt-Anchoring.comで利用可能です。
関連論文リスト
- Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。
重要な課題は、時に事実的に誤った答えを生じさせることである。
本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文 参考訳(メタデータ) (2025-01-14T03:59:48Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? [9.246899995643918]
大規模な言語モデルは、仕様から逸脱する欠陥コードを生成することができる。
広範囲な手動分析により, ノンシンタクティックな誤りの7つのカテゴリーが同定された。
評価の結果,LPMの誤りの原因を特定すると,ReActプロンプト技術を用いたGPT-4が最大0.65のF1スコアを達成できることがわかった。
論文 参考訳(メタデータ) (2024-11-03T02:47:03Z) - IterGen: Iterative Structured LLM Generation [5.174301428591665]
大規模言語モデル(LLM)は自然言語やコード生成といったタスクに広く使われている。
プライバシ違反やセマンティックに不正確なコード生成といった問題に悩まされることが多い。
我々は,反復型文法誘導LLM生成のための直感的なフレームワークであるIterGenを紹介する。
論文 参考訳(メタデータ) (2024-10-09T16:21:38Z) - Combining LLM Code Generation with Formal Specifications and Reactive Program Synthesis [0.7580487359358722]
大規模言語モデル(LLM)は精度に苦しむが、リスクの高いアプリケーションには適さない。
コード生成を LLM で処理する部分と,形式的なメソッドベースのプログラム合成で処理する部分の2つに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-09-18T15:59:06Z) - $\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。
単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:07:41Z) - Beyond Code Generation: Assessing Code LLM Maturity with Postconditions [9.521621889147362]
本稿では,ポストコンディショニング問題に基づく大規模言語モデルの成熟度モデルを提案する。
EvalPlusデータセットを条件付きテストベンチマークに拡張し、いくつかのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-07-19T08:34:30Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial
Natural Language Instructions [27.489622263456983]
DeceptPromptは、コードLLMを駆動し、脆弱性のある機能の正しいコードを生成する、逆の自然言語命令を生成するアルゴリズムである。
最適化プレフィックス/サフィックスを適用する場合、アタック成功率(ASR)はプレフィックス/サフィックスを適用せずに平均50%向上する。
論文 参考訳(メタデータ) (2023-12-07T22:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。