論文の概要: Exploring the Robustness of Large Language Models for Solving
Programming Problems
- arxiv url: http://arxiv.org/abs/2306.14583v1
- Date: Mon, 26 Jun 2023 10:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:07:55.743437
- Title: Exploring the Robustness of Large Language Models for Solving
Programming Problems
- Title(参考訳): プログラミング問題を解決するための大規模言語モデルのロバスト性の検討
- Authors: Atsushi Shirafuji, Yutaka Watanobe, Takumi Ito, Makoto Morishita, Yuki
Nakamura, Yusuke Oda, Jun Suzuki
- Abstract要約: 我々は、ソースコード生成のためのいくつかの人気のある大規模言語モデル(LLM)の堅牢性を理解するために実験を行う。
以上の結果から,CodeGenとCodexは問題記述の表面的な修正に敏感であり,コード生成性能に大きな影響を及ぼすことが示された。
InstructGPT(英語版)やChatGPT(英語版)のような最先端のSOTA(英語版)モデルは、表面的な修正に対して高い堅牢性を示し、プログラミング問題の解決に優れた能力を持っている。
- 参考スコア(独自算出の注目度): 15.80687717725775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using large language models (LLMs) for source code has recently gained
attention. LLMs, such as Transformer-based models like Codex and ChatGPT, have
been shown to be highly capable of solving a wide range of programming
problems. However, the extent to which LLMs understand problem descriptions and
generate programs accordingly or just retrieve source code from the most
relevant problem in training data based on superficial cues has not been
discovered yet. To explore this research question, we conduct experiments to
understand the robustness of several popular LLMs, CodeGen and GPT-3.5 series
models, capable of tackling code generation tasks in introductory programming
problems. Our experimental results show that CodeGen and Codex are sensitive to
the superficial modifications of problem descriptions and significantly impact
code generation performance. Furthermore, we observe that Codex relies on
variable names, as randomized variables decrease the solved rate significantly.
However, the state-of-the-art (SOTA) models, such as InstructGPT and ChatGPT,
show higher robustness to superficial modifications and have an outstanding
capability for solving programming problems. This highlights the fact that
slight modifications to the prompts given to the LLMs can greatly affect code
generation performance, and careful formatting of prompts is essential for
high-quality code generation, while the SOTA models are becoming more robust to
perturbations.
- Abstract(参考訳): ソースコードに大規模言語モデル(LLM)を使用することが最近注目を集めている。
CodexやChatGPTのようなTransformerベースのモデルのようなLLMは、幅広いプログラミング問題を解く能力が高いことが示されている。
しかし、LLMが問題記述を理解し、それに応じてプログラムを生成する範囲や、表面的な手がかりに基づくトレーニングデータにおける最も関連する問題からソースコードを検索する範囲は、まだ発見されていない。
そこで本研究では,いくつかのLLM, CodeGen および GPT-3.5 シリーズモデルのロバスト性を検証し,導入プログラミング問題におけるコード生成タスクに対処する実験を行った。
実験の結果,CodeGenとCodexは問題記述の表層的な修正に敏感であり,コード生成性能に大きな影響を及ぼすことがわかった。
さらに、乱数化変数が解数を大幅に減少させるため、Codexは変数名に依存する。
しかし、InstructGPTやChatGPTのような最先端のSOTAモデルでは、表面的な修正に対する堅牢性が向上し、プログラミング問題を解決する能力に優れていた。
このことは、LLMに与えられたプロンプトのわずかな変更がコード生成性能に大きな影響を与え、高品質なコード生成にはプロンプトの慎重にフォーマットすることが不可欠であるという事実を強調している。
関連論文リスト
- Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。
ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文 参考訳(メタデータ) (2024-09-06T10:03:49Z) - An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。
CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文 参考訳(メタデータ) (2024-08-28T09:19:09Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Knowledge-Aware Code Generation with Large Language Models [34.806454393643236]
大規模言語モデル(LLM)は、基本的なプログラミング問題においてよく機能する。
しかし、多様なアルゴリズムとデータ構造スキルの使用を含む複雑なタスクを扱う場合、課題に直面する。
我々はPythonプログラミングのコンテスト問題に適した知識ライブラリを開発し,知識認識コード生成の概念を紹介した。
論文 参考訳(メタデータ) (2024-01-29T08:01:22Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z) - Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。