論文の概要: Code Simulation Challenges for Large Language Models
- arxiv url: http://arxiv.org/abs/2401.09074v2
- Date: Sun, 21 Jan 2024 15:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:06:00.447052
- Title: Code Simulation Challenges for Large Language Models
- Title(参考訳): 大規模言語モデルのコードシミュレーション問題
- Authors: Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin,
Anthony Cohn, Nigel Shadbolt, Michael Wooldridge
- Abstract要約: 本稿では,Large Language Models (LLM) がコンピュータコードやアルゴリズムの実行をシミュレートできる範囲について検討する。
このような単純なプログラムであっても,現在のLLMは性能が劣っていることを示す。
本稿では,コード実行行を行単位でシミュレートする新しいプロンプト手法を提案する。
- 参考スコア(独自算出の注目度): 7.635311773559133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the extent to which Large Language Models (LLMs) can simulate
the execution of computer code and algorithms. We begin by looking at straight
line programs, and show that current LLMs demonstrate poor performance even
with such simple programs -- performance rapidly degrades with the length of
code. We then investigate the ability of LLMs to simulate programs that contain
critical paths and redundant instructions. We also go beyond straight line
program simulation with sorting algorithms and nested loops, and we show the
computational complexity of a routine directly affects the ability of an LLM to
simulate its execution. We observe that LLMs execute instructions sequentially
and with a low error margin only for short programs or standard procedures.
LLMs' code simulation is in tension with their pattern recognition and
memorisation capabilities: on tasks where memorisation is detrimental, we
propose a novel prompting method to simulate code execution line by line.
Empirically, our new Chain of Simulation (CoSm) method improves on the standard
Chain of Thought prompting approach by avoiding the pitfalls of memorisation.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) がコンピュータコードやアルゴリズムの実行をシミュレートできる範囲について検討する。
まず、直線的なプログラムを見て、現在のllmがこのような単純なプログラムでもパフォーマンスの低下を示していることを示します。
次に、クリティカルパスと冗長命令を含むプログラムをシミュレートするLLMの能力について検討する。
また、ソートアルゴリズムとネストループを用いた直線プログラムシミュレーションを超越し、ルーチンの計算複雑性がLCMの実行をシミュレートする能力に直接影響を与えることを示す。
我々はLLMが命令を逐次実行し、短いプログラムや標準手順でのみエラーマージンが低いことを観察する。
llmsのコードシミュレーションは、パターン認識と記憶能力との緊張状態にある: 記憶が有害なタスクでは、コード実行ラインを1行ずつシミュレートする新しいプロンプト手法を提案する。
経験的に、新しい連鎖シミュレーション(cosm)法は、記憶の落とし穴を避けることによって思考促進アプローチの標準連鎖を改善する。
関連論文リスト
- Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale [17.00936774784349]
大規模言語モデル(LLM)サービスシステムにおいて、汎用的なハードウェア・ソフトウェア動作を正確にモデル化できるシミュレーション基盤が欠如している。
本稿では,LLMServingSimと呼ばれる効率的なシミュレーションツールを開発し,LCMサービスシステムにおける今後の研究を支援することを目的とする。
論文 参考訳(メタデータ) (2024-08-10T09:26:15Z) - On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Case2Code: Learning Inductive Reasoning with Synthetic Data [105.89741089673575]
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
まず、合成したCase2Codeタスクにおける代表LLMを評価し、LLMにおいてケース・ツー・コード誘導が困難であることを実証する。
実験結果から,このような帰納的学習は,Case2Codeの性能だけでなく,学習用LLMの各種符号化能力の向上にも寄与することがわかった。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - Can Language Models Pretend Solvers? Logic Code Simulation with LLMs [3.802945676202634]
トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。
この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。
論文 参考訳(メタデータ) (2024-03-24T11:27:16Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。