論文の概要: Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs
- arxiv url: http://arxiv.org/abs/2401.10065v2
- Date: Sun, 25 Feb 2024 22:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:41:44.581424
- Title: Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs
- Title(参考訳): Text+Code LLMにおける条件推論能力のコードプロンプト
- Authors: Haritz Puerto, Martin Tutek, Somak Aditya, Xiaodan Zhu, Iryna Gurevych
- Abstract要約: 自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
- 参考スコア(独自算出の注目度): 69.99031792995348
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reasoning is a fundamental component of language understanding. Recent
prompting techniques, such as chain of thought, have consistently improved
LLMs' performance on various reasoning tasks. Nevertheless, there is still
little understanding of what triggers reasoning abilities in LLMs in the
inference stage. In this paper, we introduce code prompting, a chain of prompts
that transforms a natural language problem into code and directly prompts the
LLM using the generated code without resorting to external code execution. We
hypothesize that code prompts can elicit certain reasoning capabilities of LLMs
trained on text and code and utilize the proposed method to improve conditional
reasoning, the ability to infer different conclusions depending on the
fulfillment of certain conditions. We find that code prompting exhibits a
high-performance boost for multiple LLMs (up to 22.52 percentage points on GPT
3.5, 7.75 on Mixtral, and 16.78 on Mistral) across multiple conditional
reasoning datasets. We then conduct comprehensive experiments to understand how
code prompts trigger reasoning abilities and which capabilities are elicited in
the underlying models. Our analysis of GPT 3.5 reveals that the code formatting
of the input problem is essential for performance improvement. Furthermore,
code prompts improve sample efficiency of in-context learning and facilitate
state tracking of variables or entities.
- Abstract(参考訳): 推論は言語理解の基本的な要素である。
思考の連鎖のような近年のプロンプト技術は、様々な推論タスクにおけるLLMの性能を一貫して改善している。
それでも、推論段階におけるLSMの推論能力の引き金となるものは、まだほとんど分かっていない。
本稿では、自然言語問題をコードに変換する一連のプロンプトであるコードプロンプトを導入し、外部コードの実行に頼ることなく、生成したコードを使って直接LLMをプロンプトする。
我々は、コードプロンプトが、テキストとコードで訓練されたllmの特定の推論能力を引き出すことができると仮定し、提案手法を利用して条件付き推論を改善し、特定の条件を満たすことによって異なる結論を推測できると仮定する。
コードプロンプトは複数のLCM(GPT 3.5で最大22.52ポイント、Mixtralで7.75ポイント、Mistralで16.78ポイント)を複数の条件推論データセットで高速に向上させる。
次に、コードがどのように推論能力を引き出すのか、基礎となるモデルでどの能力を引き出すのかを理解するための包括的な実験を行います。
GPT 3.5の解析により,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
さらに、コードはコンテキスト内学習のサンプル効率を改善し、変数やエンティティの状態追跡を容易にする。
関連論文リスト
- If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z) - At Which Training Stage Does Code Data Help LLMs Reasoning? [21.74241875923737]
本稿では,Large Language Models (LLM) に対するコードデータの影響について検討する。
コードとテキストの混合による事前学習 LLM は LLM の一般的な推論能力を大幅に向上させることができる。
命令チューニングの段階では、コードデータはLLMにタスク固有の推論能力を与える。
論文 参考訳(メタデータ) (2023-09-28T09:50:27Z) - Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - The Magic of IF: Investigating Causal Reasoning Abilities in Large
Language Models of Code [74.3873029963285]
因果関係を特定する能力である因果推論は、人間の思考において重要である。
コードプロンプト付きコード-LLMは因果推論において著しく優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:02:58Z) - Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large
Language Models [74.95486528482327]
コードプロンプト(code prompting)は、ゼロショットバージョンと少数ショットバージョンの両方を持ち、中間ステップとしてコードをトリガーするニューラルシンボルプロンプトである。
我々は,記号的推論と算術的推論を含む7つの広く使用されているベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-29T15:14:09Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。