論文の概要: Code Simulation Challenges for Large Language Models
- arxiv url: http://arxiv.org/abs/2401.09074v2
- Date: Sun, 21 Jan 2024 15:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:06:00.447052
- Title: Code Simulation Challenges for Large Language Models
- Title(参考訳): 大規模言語モデルのコードシミュレーション問題
- Authors: Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin,
Anthony Cohn, Nigel Shadbolt, Michael Wooldridge
- Abstract要約: 本稿では,Large Language Models (LLM) がコンピュータコードやアルゴリズムの実行をシミュレートできる範囲について検討する。
このような単純なプログラムであっても,現在のLLMは性能が劣っていることを示す。
本稿では,コード実行行を行単位でシミュレートする新しいプロンプト手法を提案する。
- 参考スコア(独自算出の注目度): 7.635311773559133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the extent to which Large Language Models (LLMs) can simulate
the execution of computer code and algorithms. We begin by looking at straight
line programs, and show that current LLMs demonstrate poor performance even
with such simple programs -- performance rapidly degrades with the length of
code. We then investigate the ability of LLMs to simulate programs that contain
critical paths and redundant instructions. We also go beyond straight line
program simulation with sorting algorithms and nested loops, and we show the
computational complexity of a routine directly affects the ability of an LLM to
simulate its execution. We observe that LLMs execute instructions sequentially
and with a low error margin only for short programs or standard procedures.
LLMs' code simulation is in tension with their pattern recognition and
memorisation capabilities: on tasks where memorisation is detrimental, we
propose a novel prompting method to simulate code execution line by line.
Empirically, our new Chain of Simulation (CoSm) method improves on the standard
Chain of Thought prompting approach by avoiding the pitfalls of memorisation.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) がコンピュータコードやアルゴリズムの実行をシミュレートできる範囲について検討する。
まず、直線的なプログラムを見て、現在のllmがこのような単純なプログラムでもパフォーマンスの低下を示していることを示します。
次に、クリティカルパスと冗長命令を含むプログラムをシミュレートするLLMの能力について検討する。
また、ソートアルゴリズムとネストループを用いた直線プログラムシミュレーションを超越し、ルーチンの計算複雑性がLCMの実行をシミュレートする能力に直接影響を与えることを示す。
我々はLLMが命令を逐次実行し、短いプログラムや標準手順でのみエラーマージンが低いことを観察する。
llmsのコードシミュレーションは、パターン認識と記憶能力との緊張状態にある: 記憶が有害なタスクでは、コード実行ラインを1行ずつシミュレートする新しいプロンプト手法を提案する。
経験的に、新しい連鎖シミュレーション(cosm)法は、記憶の落とし穴を避けることによって思考促進アプローチの標準連鎖を改善する。
関連論文リスト
- Can Language Models Pretend Solvers? Logic Code Simulation with LLMs [3.802945676202634]
トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。
この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。
論文 参考訳(メタデータ) (2024-03-24T11:27:16Z) - LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step [35.76881887942524]
大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。
本研究では,Large Language Model Debugger (LDB)を紹介する。
LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。
論文 参考訳(メタデータ) (2024-02-25T00:56:27Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文 参考訳(メタデータ) (2023-04-20T16:12:05Z) - GPT is becoming a Turing machine: Here are some ways to program it [16.169056235216576]
GPT-3モデルはループを含むプログラムを実行するために起動可能であることを示す。
1つのタスクの例をカバーすることさえできないプロンプトが、アルゴリズム的な振る舞いをトリガーできることを示します。
論文 参考訳(メタデータ) (2023-03-25T00:43:41Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。