論文の概要: Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2404.02575v1
- Date: Wed, 3 Apr 2024 08:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:00:28.420400
- Title: Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models
- Title(参考訳): コンパイラとしての言語モデル: 擬似コード実行のシミュレーションは言語モデルにおけるアルゴリズム推論を改善する
- Authors: Hyungjoo Chae, Yeonghyeon Kim, Seungone Kim, Kai Tzu-iunn Ong, Beong-woo Kwak, Moohyeon Kim, Seonghwan Kim, Taeyoon Kwon, Jiwan Chung, Youngjae Yu, Jinyoung Yeo,
- Abstract要約: 本稿では,言語モデルの推論過程を2段階に分解するフレームワークであるThink-and-Executeについて述べる。
7つのアルゴリズム的推論タスクについて広範な実験を行い、思考と実行の有効性を実証する。
- 参考スコア(独自算出の注目度): 17.76252625790628
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Algorithmic reasoning refers to the ability to understand the complex patterns behind the problem and decompose them into a sequence of reasoning steps towards the solution. Such nature of algorithmic reasoning makes it a challenge for large language models (LLMs), even though they have demonstrated promising performance in other reasoning tasks. Within this context, some recent studies use programming languages (e.g., Python) to express the necessary logic for solving a given instance/question (e.g., Program-of-Thought) as inspired by their strict and precise syntaxes. However, it is non-trivial to write an executable code that expresses the correct logic on the fly within a single inference call. Also, the code generated specifically for an instance cannot be reused for others, even if they are from the same task and might require identical logic to solve. This paper presents Think-and-Execute, a novel framework that decomposes the reasoning process of language models into two steps. (1) In Think, we discover a task-level logic that is shared across all instances for solving a given task and then express the logic with pseudocode; (2) In Execute, we further tailor the generated pseudocode to each instance and simulate the execution of the code. With extensive experiments on seven algorithmic reasoning tasks, we demonstrate the effectiveness of Think-and-Execute. Our approach better improves LMs' reasoning compared to several strong baselines performing instance-specific reasoning (e.g., CoT and PoT), suggesting the helpfulness of discovering task-level logic. Also, we show that compared to natural language, pseudocode can better guide the reasoning of LMs, even though they are trained to follow natural language instructions.
- Abstract(参考訳): アルゴリズム推論(英: Algorithmic reasoning)とは、問題の裏にある複雑なパターンを理解し、それらを一連の推論ステップに分解する能力である。
このようなアルゴリズム推論の性質は、他の推論タスクにおいて有望な性能を示したにもかかわらず、大きな言語モデル(LLM)にとって困難である。
この文脈の中では、いくつかの最近の研究では、厳密で正確な構文にインスパイアされた、与えられたインスタンス/問い合わせ(例えば、Program-of-Thought)を解決するために必要なロジックを表現するために、プログラミング言語(例えば、Python)を使用している。
しかし、単一の推論呼び出しの中で、オンザフライで正しいロジックを表現する実行可能なコードを書くのは簡単ではない。
また、インスタンス用に特別に生成されたコードは、同じタスク出身で、解決するために同じロジックを必要とする場合であっても、他の人のために再利用することはできない。
本稿では,言語モデルの推論過程を2段階に分解する新しいフレームワークであるThink-and-Executeを提案する。
1) 与えられたタスクを解決するために,すべてのインスタンス間で共有されるタスクレベルのロジックを発見し,そのロジックを擬似コードで表現する; (2) 実行時には,生成された擬似コードを各インスタンスにさらに調整し,コードの実行をシミュレートする。
7つのアルゴリズム的推論タスクについて広範な実験を行い、思考と実行の有効性を実証する。
提案手法は,インスタンス固有の推論(例えば,CoT,PoT)を実行するいくつかの強いベースラインと比較して,LMの推論を改良し,タスクレベルの論理の発見に有用であることを示す。
また、自然言語と比較して、擬似コードは、自然言語の指示に従うように訓練されているにもかかわらず、LMの推論をより良く導くことができることを示す。
関連論文リスト
- LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - CodeMind: A Framework to Challenge Large Language Models for Code Reasoning [1.4027589547318842]
大規模言語モデル(LLM)のコード推論能力を評価するために設計されたフレームワークであるCodeMindを紹介する。
CodeMindは、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - Chain of Code: Reasoning with a Language Model-Augmented Code Emulator [115.16975276693267]
我々は、LMコード駆動推論を改善するシンプルながら驚くほど効果的な拡張であるChain of Codeを提案する。
キーとなるアイデアは、プログラム内のセマンティックなサブタスクを、インタープリタが明示的にキャッチできるフレキシブルな擬似コードとしてフォーマットすることを、LMに促すことである。
論文 参考訳(メタデータ) (2023-12-07T17:51:43Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - The Magic of IF: Investigating Causal Reasoning Abilities in Large
Language Models of Code [74.3873029963285]
因果関係を特定する能力である因果推論は、人間の思考において重要である。
コードプロンプト付きコード-LLMは因果推論において著しく優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:02:58Z) - Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large
Language Models [74.95486528482327]
コードプロンプト(code prompting)は、ゼロショットバージョンと少数ショットバージョンの両方を持ち、中間ステップとしてコードをトリガーするニューラルシンボルプロンプトである。
我々は,記号的推論と算術的推論を含む7つの広く使用されているベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-29T15:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。