論文の概要: Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
- arxiv url: http://arxiv.org/abs/2312.04474v1
- Date: Thu, 7 Dec 2023 17:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:00:05.859475
- Title: Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
- Title(参考訳): コードの連鎖:言語モデル拡張コードエミュレータによる推論
- Authors: Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa
Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter
- Abstract要約: 言語モデル(LM)はコード記述を活用して思考の連鎖推論を改善する。
我々は、LMコード駆動推論を改善するシンプルな、そして驚くほど効果的な拡張であるChain of Code (CoT)を提案する。
- 参考スコア(独自算出の注目度): 119.0018170558366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code provides a general syntactic structure to build complex programs and
perform precise computations when paired with a code interpreter -- we
hypothesize that language models (LMs) can leverage code-writing to improve
Chain of Thought reasoning not only for logic and arithmetic tasks, but also
for linguistic ones (and in particular, those that are a mix of both). For
example, consider prompting an LM to write code that counts the number of times
it detects sarcasm in an essay: the LM may struggle to write an implementation
for "detect_sarcasm(string)" that can be executed by the interpreter (handling
the edge cases would be insurmountable). However, LMs may still produce a valid
solution if they are used not only to write the code, but also to selectively
"emulate" the interpreter by generating the expected output of
"detect_sarcasm(string)" and other lines of code (e.g., that the interpreter
could not compile). In this work, we propose Chain of Code (CoT), a simple yet
surprisingly effective extension that improves LM code-driven reasoning. The
key idea is to encourage LMs to format linguistic sub-tasks in a program as
flexible pseudocode that the compiler can explicitly catch undefined behaviors
and hand off to simulate with an LM (as an "LMulator"). Experiments demonstrate
that Chain of Code outperforms Chain of Thought and other baselines across a
variety of benchmarks; on BIG-Bench Hard, Chain of Code achieves 84%, a gain of
12% over Chain of Thought. CoT scales well with large and small models alike,
and broadens the scope of reasoning questions that LMs can correctly answer by
"thinking in code". Project webpage: https://chain-of-code.github.io/.
- Abstract(参考訳): Codeは、複雑なプログラムを構築し、コードインタプリタとペアになったときに正確な計算を行うための一般的な構文構造を提供します。
本研究では,LMコード駆動推論を改善するシンプルな,驚くほど効果的な拡張であるChain of Code (CoT)を提案する。
さまざまなベンチマークにおいて、Chain of CodeがChain of Thoughtやその他のベースラインよりも優れており、BIG-Bench Hardでは、Chain of Codeが84%、Chain of Thoughtよりも12%向上している。
プロジェクトWebページ: https://chain-of-code.github.io/.com
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - What can Large Language Models Capture about Code Functional Equivalence? [24.178831487657945]
論文 参考訳(メタデータ) (2024-08-20T11:19:06Z) - Case2Code: Learning Inductive Reasoning with Synthetic Data [105.89741089673575]
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models [17.76252625790628]
論文 参考訳(メタデータ) (2024-04-03T08:49:11Z) - CodeMind: A Framework to Challenge Large Language Models for Code Reasoning [1.4027589547318842]
CodeMindは、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large
Language Models [74.95486528482327]
コードプロンプト(code prompting)は、ゼロショットバージョンと少数ショットバージョンの両方を持ち、中間ステップとしてコードをトリガーするニューラルシンボルプロンプトである。
論文 参考訳(メタデータ) (2023-05-29T15:14:09Z)