Fugu-MT 論文翻訳(概要): Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation

論文の概要: Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation

arxiv url: http://arxiv.org/abs/2305.10679v1
Date: Thu, 18 May 2023 03:32:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 17:12:38.812158
Title: Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation
Title（参考訳）: コードの外で考える:ブレインストーミングはコード生成において大きな言語モデルを増やす
Authors: Xin-Ye Li, Jiang-Tian Xue, Zheng Xie and Ming Li
Abstract要約: 本稿では,コード生成のためのBrainstormフレームワークを紹介する。ブレインストーミングのステップを利用して、問題に関するさまざまな思考を生成し、選択する。 Brainstormは、LLMが競合レベルのプログラミング問題を解決する能力を大幅に強化する。
参考スコア（独自算出の注目度）: 9.904734169174356
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code generation aims to automatically generate source code from high-level task specifications, which can significantly increase productivity of software engineering. Recently, approaches based on large language models (LLMs) have shown remarkable code generation abilities on simple tasks. However, generate code for more complex tasks, such as competition-level problems, remains challenging. In this paper, we introduce Brainstorm framework for code generation. It leverages a brainstorming step that generates and selects diverse thoughts on the problem to facilitate algorithmic reasoning, where the thoughts are possible blueprint of solving the problem. We demonstrate that Brainstorm significantly enhances the ability of LLMs to solve competition-level programming problems, resulting in a more than 50% increase in the pass@$k$ metrics for ChatGPT on the CodeContests benchmark, achieving state-of-the-art performance. Furthermore, our experiments conducted on LeetCode contests show that our framework boosts the ability of ChatGPT to a level comparable to that of human programmers.
Abstract（参考訳）: コード生成は、高レベルのタスク仕様からソースコードを自動的に生成することを目的としている。近年、大規模言語モデル(llms)に基づくアプローチは、単純なタスクで素晴らしいコード生成能力を示している。しかし、競争レベルの問題など、より複雑なタスクのためのコードを生成することは依然として困難である。本稿では,コード生成のためのBrainstormフレームワークを紹介する。ブレインストーミングのステップを利用して、問題に関するさまざまな思考を生成し、選択し、アルゴリズムによる推論を促進する。我々は、brainstormが競合レベルのプログラミング問題を解決するためのllmの能力を大幅に向上させ、codecontestsベンチマークでchatgptのpass@$k$メトリックを50%以上増加させ、最先端のパフォーマンスを達成することを実証した。さらに、LeetCodeコンテストで実施した実験により、我々のフレームワークは、ChatGPTの能力を人間のプログラマに匹敵するレベルまで引き上げることを示した。

関連論文リスト

CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文参考訳（メタデータ） (2025-12-22T14:27:17Z)
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文参考訳（メタデータ） (2025-02-26T18:55:42Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。 CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
No Man is an Island: Towards Fully Automatic Programming by Code Search, Code Generation and Program Repair [9.562123938545522]
ツールネームは、様々なコード検索、生成、修復ツールを統合することができ、これら3つの研究領域を初めて組み合わせることができる。例えば、CodeLlamaは62.53%の改善で267のプログラミング問題を解決するのに役立ちます。
論文参考訳（メタデータ） (2024-09-05T06:24:29Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
Evaluation of the Programming Skills of Large Language Models [0.16385815610837165]
大規模言語モデル(LLM)は、タスクが完了する効率とスピードに革命をもたらした。本稿では,OpenAI の ChatGPT と Google の Gemini AI の2つの主要な LLM の出力品質を,双方のフリーバージョンで生成されたプログラミングコードの品質と比較することにより,批判的に検証する。
論文参考訳（メタデータ） (2024-05-23T10:04:36Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)
Large Language Models Should Ask Clarifying Questions to Increase Confidence in Generated Code [0.7252027234425334]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。本稿では,LLM生成コミュニケータを用いて,問題記述や生成されたコードに対する曖昧さや信頼性の低い問題を識別する通信中心プロセスを提案する。
論文参考訳（メタデータ） (2023-08-25T17:33:05Z)
No Need to Lift a Finger Anymore? Assessing the Quality of Code Generation by ChatGPT [28.68768157452352]
本稿では,ChatGPTを用いたコード生成の質について検討する。私たちは5つの言語(C、C++、Java、Python、JavaScript)で728のアルゴリズム問題と、コード生成タスクの54のコードシナリオを持つ18のCWEを活用しています。この結果から,ChatGPTベースのコード生成に生じる潜在的な問題や限界が明らかになった。
論文参考訳（メタデータ） (2023-08-09T10:01:09Z)
Improving ChatGPT Prompt for Code Generation [13.303599826870705]
OpenAIの言語モデルChatGPTは、幅広いテキスト入力に対するヒューマンライクな応答を生成する強力なツールとして登場した。テキスト・ツー・コード生成とコード・ツー・コード生成を含む2つのコード生成タスクにおけるChatGPTの機能を評価する。その結果,ChatGPTをガイドするプロンプトを慎重に設計することで,生成性能を大幅に向上できることがわかった。
論文参考訳（メタデータ） (2023-05-15T05:37:33Z)
Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。 Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文参考訳（メタデータ） (2022-02-08T23:16:31Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。