論文の概要: Modularization is Better: Effective Code Generation with Modular Prompting
- arxiv url: http://arxiv.org/abs/2503.12483v1
- Date: Sun, 16 Mar 2025 12:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:34:04.179722
- Title: Modularization is Better: Effective Code Generation with Modular Prompting
- Title(参考訳): モジュール化はより良い: モジュールプロンプトによる効果的なコード生成
- Authors: Ruwei Pan, Hongyu Zhang,
- Abstract要約: 本稿では,大規模言語モデルのコード生成性能を向上させるため,MoTと呼ばれる新しいプロンプト手法を提案する。
MoTはモジュール化の原則を利用して、複雑なプログラミング問題をより小さく独立した推論ステップに分解する。
MLRグラフを使用して推論プロセスを構築し、階層的に推論ステップを編成する。
- 参考スコア(独自算出の注目度): 9.955541341324007
- License:
- Abstract: Large Language Models are transforming software development by automatically generating code. Current prompting techniques such as Chain-of-Thought (CoT) suggest tasks step by step and the reasoning process follows a linear structure, which hampers the understanding of complex programming problems, particularly those requiring hierarchical solutions. Inspired by the principle of modularization in software development, in this work, we propose a novel prompting technique, called MoT, to enhance the code generation performance of LLMs. At first, MoT exploits modularization principles to decompose complex programming problems into smaller, independent reasoning steps, enabling a more structured and interpretable problem-solving process. This hierarchical structure improves the LLM's ability to comprehend complex programming problems. Then, it structures the reasoning process using an MLR Graph (Multi-Level Reasoning Graph), which hierarchically organizes reasoning steps. This approach enhances modular understanding and ensures better alignment between reasoning steps and the generated code, significantly improving code generation performance. Our experiments on two advanced LLMs (GPT-4o-mini and DeepSeek-R1), comparing MoT to six baseline prompting techniques across six widely used datasets, HumanEval, HumanEval-ET, HumanEval+, MBPP, MBPP-ET, and MBPP+, demonstrate that MoT significantly outperforms existing baselines (e.g., CoT and SCoT), achieving Pass@1 scores ranging from 58.1% to 95.1%. The experimental results confirm that MoT significantly enhances the performance of LLM-based code generation.
- Abstract(参考訳): 大規模言語モデルは、コードを自動的に生成することでソフトウェア開発を変革しています。
現在のChain-of-Thought(CoT)のようなプロンプト技術は、タスクをステップバイステップで提案し、推論プロセスは線形構造に従う。
本研究は,ソフトウェア開発におけるモジュール化の原則に触発されて,LLMのコード生成性能を向上させるため,MoTと呼ばれる新しいプロンプト技術を提案する。
最初、MoTはモジュール化の原則を利用して、複雑なプログラミング問題をより小さく独立した推論ステップに分解し、より構造化され解釈可能な問題解決プロセスを可能にする。
この階層構造により、LLMの複雑なプログラミング問題を理解する能力が向上する。
そして、MLRグラフ(Multi-Level Reasoning Graph)を使用して推論プロセスを構築し、階層的に推論ステップを編成する。
このアプローチはモジュラー理解を強化し、推論ステップと生成されたコードとの整合性が向上し、コード生成のパフォーマンスが大幅に向上する。
2つの高度なLCM(GPT-4o-miniとDeepSeek-R1)に関する実験では、MoTを広く使用されている6つのデータセット(HumanEval、HumanEval-ET、HumanEval+、MBPP、MBPP-ET、MBPP+)で6つのベースラインプロンプト技術と比較し、MoTが既存のベースライン(例えば、CoT、SCoT)を大幅に上回り、58.1%から95.1%の範囲でPass@1スコアを達成することを示した。
実験の結果,MoTはLLMベースのコード生成の性能を大幅に向上させることがわかった。
関連論文リスト
- MTMT: Consolidating Multiple Thinking Modes to Form a Thought Tree for Strengthening LLM [15.687878949848182]
大規模言語モデル(LLM)は、複雑な論理的推論と多段階の問題解決を必要とするタスクの制限を示している。
MTMT(Multi-thinking Modes Tree)は,LLMと対話して思考木を構築する手法である。
GPT-4o miniをベースモデルとして,パラメータ設定の違いによるMTMTの性能評価を行った。
論文 参考訳(メタデータ) (2024-12-05T09:05:30Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [50.61968901704187]
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。
調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-26T08:49:57Z) - CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。
CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文 参考訳(メタデータ) (2023-10-13T10:17:48Z) - Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。