論文の概要: Executing Natural Language-Described Algorithms with Large Language Models: An Investigation
- arxiv url: http://arxiv.org/abs/2403.00795v2
- Date: Thu, 14 Mar 2024 14:25:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:22:49.405829
- Title: Executing Natural Language-Described Algorithms with Large Language Models: An Investigation
- Title(参考訳): 大規模言語モデルを用いた自然言語記述アルゴリズムの実行
- Authors: Xin Zheng, Qiming Zhu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun,
- Abstract要約: 自然言語で概説したアルゴリズムを理解・実行するための,今日の大規模言語モデルの能力について検討する。
我々は、30個のアルゴリズムを選択し、300個のランダムサンプリングされたインスタンスを生成し、人気のあるLCMがこれらのアルゴリズムを理解し実行できるかを評価した。
この結果から,LLM,特にGPT-4は,重数値計算を伴わない限り,自然言語で記述されたプログラムを効果的に実行できることが判明した。
- 参考スコア(独自算出の注目度): 48.461999568129166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Executing computer programs described in natural language has long been a pursuit of computer science. With the advent of enhanced natural language understanding capabilities exhibited by large language models (LLMs), the path toward this goal has been illuminated. In this paper, we seek to examine the capacity of present-day LLMs to comprehend and execute algorithms outlined in natural language. We established an algorithm test set sourced from Introduction to Algorithm, a well-known textbook that contains many representative widely-used algorithms. To systematically assess LLMs' code execution abilities, we selected 30 algorithms, generated 300 random-sampled instances in total, and evaluated whether popular LLMs can understand and execute these algorithms. Our findings reveal that LLMs, notably GPT-4, can effectively execute programs described in natural language, as long as no heavy numeric computation is involved. We believe our findings contribute to evaluating LLMs' code execution abilities and would encourage further investigation and application for the computation power of LLMs.
- Abstract(参考訳): 自然言語で記述されたコンピュータプログラムの実行は、長い間コンピュータ科学の追求であった。
大規模言語モデル(LLM)が示す自然言語理解能力の向上が出現し、この目標への道筋が照らされた。
本稿では,自然言語で概説したアルゴリズムを理解・実行するための現在のLLMの能力について検討する。
我々は,多くの代表的アルゴリズムを含むよく知られた教科書であるIntroduction to Algorithmをベースとしたアルゴリズムテストセットを構築した。
LLMのコード実行能力を体系的に評価するために、30のアルゴリズムを選択し、合計300のランダムサンプリングインスタンスを生成し、人気のあるLLMがこれらのアルゴリズムを理解し実行できるかを評価した。
この結果から,LLM,特にGPT-4は,重数値計算を伴わない限り,自然言語で記述されたプログラムを効果的に実行できることが判明した。
我々は,LLMのコード実行能力の評価に寄与し,LLMの計算能力に関するさらなる調査と応用を奨励すると考えている。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language
Models [18.302024623742533]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。
この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-20T22:36:23Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - Fast Quantum Algorithm for Attention Computation [18.44025861624981]
大規模言語モデル(LLM)は、幅広いタスクで例外的なパフォーマンスを示している。
大規模言語モデル(LLM)のアーキテクチャにおけるアテンションスキームの役割
量子機械計算は古典機械と比較して一定の計算上の優位性を持っていることはよく知られている。
論文 参考訳(メタデータ) (2023-07-16T14:00:42Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。