Fugu-MT 論文翻訳(概要): Enhancing Code Generation via Bidirectional Comment-Level Mutual Grounding

論文の概要: Enhancing Code Generation via Bidirectional Comment-Level Mutual Grounding

arxiv url: http://arxiv.org/abs/2505.07768v1
Date: Mon, 12 May 2025 17:20:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.507671
Title: Enhancing Code Generation via Bidirectional Comment-Level Mutual Grounding
Title（参考訳）: 双方向コメントレベル相互接地によるコード生成の強化
Authors: Yifeng Di, Tianyi Zhang,
Abstract要約: 大規模言語モデル(LLM)はコード生成において前例のない能力を示している。最近の研究によると、開発者はLLMが生成した間違ったコードの検査と修正に苦労することが多い。コミュニケーションにおける相互基盤理論に着想を得て,コードコメントを開発者やLLMにとってのメディアとして活用し,共通理解を確立するインタラクティブなアプローチを提案する。
参考スコア（独自算出の注目度）: 6.867043179943195
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated unprecedented capability in code generation. However, LLM-generated code is still plagued with a wide range of functional errors, especially for complex programming tasks that LLMs have not seen before. Recent studies have shown that developers often struggle with inspecting and fixing incorrect code generated by LLMs, diminishing their productivity and trust in LLM-based code generation. Inspired by the mutual grounding theory in communication, we propose an interactive approach that leverages code comments as a medium for developers and LLMs to establish a shared understanding. Our approach facilitates iterative grounding by interleaving code generation, inline comment generation, and contextualized user feedback through editable comments to align generated code with developer intent. We evaluated our approach on two popular benchmarks and demonstrated that our approach significantly improved multiple state-of-the-art LLMs, e.g., 17.1% pass@1 improvement for code-davinci-002 on HumanEval. Furthermore, we conducted a user study with 12 participants in comparison to two baselines: (1) interacting with GitHub Copilot, and (2) interacting with a multi-step code generation paradigm called Multi-Turn Program Synthesis. Participants completed the given programming tasks 16.7% faster and with 10.5% improvement in task success rate when using our approach. Both results show that interactively refining code comments enables the collaborative establishment of mutual grounding, leading to more accurate code generation and higher developer confidence.
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成において前例のない能力を示している。しかし、LLMの生成したコードは、LLMがこれまで見たことのない複雑なプログラミングタスクにおいて、幅広い機能的エラーに悩まされている。近年の研究では、開発者はLLMが生成した不正なコードの検査と修正に苦労し、生産性を低下させ、LLMベースのコード生成に対する信頼を損なうことが示されている。コミュニケーションにおける相互基盤理論に着想を得て,コードコメントを開発者やLLMにとってのメディアとして活用し,共通理解を確立するインタラクティブなアプローチを提案する。コード生成,インラインコメント生成,コンテキスト化されたユーザフィードバックを編集可能なコメントを通じて,生成したコードと開発者の意図を一致させることで,反復的なグラウンド化を容易にする。提案手法は,HumanEval上での Code-davinci-002 に対する 17.1% pass@1 の改善など,複数の最先端 LLM を著しく改善することを示した。さらに,GitHub Copilotとのインタラクション,マルチスレッドプログラム合成と呼ばれるマルチステップコード生成パラダイムとのインタラクションの2つのベースラインと比較して,12人の参加者を対象に,ユーザスタディを実施した。参加者は与えられたプログラミングタスクを16.7%高速化し、我々のアプローチを使用するとタスクの成功率を10.5%改善した。どちらの結果も、インタラクティブにコードコメントを書き換えることで、相互基盤の協調的な確立が可能になり、より正確なコード生成と開発者の信頼性が向上することを示している。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Pragmatic Reasoning improves LLM Code Generation [35.78260347663757]
我々は,Rational Speech Act (RSA) フレームワーク上に構築された新しいコード候補付け機構であるCodeRSAを提案する。我々は、人気のあるコード生成データセット上で、最新のLarge Language Modelの1つを用いてCodeRSAを評価する。
論文参考訳（メタデータ） (2025-02-20T12:44:26Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement [24.25119206488625]
PairCoderは、コードを生成するための大規模言語モデル(LLM)のための新しいフレームワークである。ハイレベルな計画のためのナビゲータエージェントと、特定の実装のためのドライバエージェントの2つのコラボレーティブエージェントが組み込まれている。ドライバは、Navigatorの指示に従って、初期コード生成、コードテスト、改善を行う。
論文参考訳（メタデータ） (2024-09-08T07:22:19Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
A Study on Developer Behaviors for Validating and Repairing LLM-Generated Code Using Eye Tracking and IDE Actions [13.58143103712]
GitHub Copilotは、LLM(Big Language Model)ベースのコード生成ツールである。本稿では,Copilotが生成したコードを開発者がどのように検証し,修復するかを検討する。コードの存在を認識したことにより、パフォーマンスの向上、検索努力の向上、コパイロットの使用頻度の向上、認知作業負荷の向上につながった。
論文参考訳（メタデータ） (2024-05-25T06:20:01Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。 muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文参考訳（メタデータ） (2023-09-28T02:58:07Z)
Large Language Models are Few-Shot Summarizers: Multi-Intent Comment Generation via In-Context Learning [34.006227676170504]
本研究では,大規模言語モデル(LLM)を用いて,開発者の多様な意図を満たすコメントを生成することの実現可能性について検討する。 2つの大規模なデータセットの実験は、私たちの洞察の理論的根拠を示しています。
論文参考訳（メタデータ） (2023-04-22T12:26:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。