論文の概要: Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs
- arxiv url: http://arxiv.org/abs/2401.10065v1
- Date: Thu, 18 Jan 2024 15:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:13:25.282777
- Title: Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs
- Title(参考訳): Text+Code LLMにおける条件推論能力のコードプロンプト
- Authors: Haritz Puerto, Martin Tutek, Somak Aditya, Xiaodan Zhu, Iryna Gurevych
- Abstract要約: 条件付き推論は、大きな言語モデル(LLM)で研究されている
本稿では,自然言語問題をコードに変換する一連のプロンプトを提案し,生成したコードでLLMをプロンプトする。
我々は、コードがどのように条件付き推論能力を引き出すか、どの機能を通してどのように促すかを実験する。
- 参考スコア(独自算出の注目度): 69.99031792995348
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reasoning is a fundamental component for achieving language understanding.
Among the multiple types of reasoning, conditional reasoning, the ability to
draw different conclusions depending on some condition, has been understudied
in large language models (LLMs). Recent prompting methods, such as chain of
thought, have significantly improved LLMs on reasoning tasks. Nevertheless,
there is still little understanding of what triggers reasoning abilities in
LLMs. We hypothesize that code prompts can trigger conditional reasoning in
LLMs trained on text and code. We propose a chain of prompts that transforms a
natural language problem into code and prompts the LLM with the generated code.
Our experiments find that code prompts exhibit a performance boost between 2.6
and 7.7 points on GPT 3.5 across multiple datasets requiring conditional
reasoning. We then conduct experiments to discover how code prompts elicit
conditional reasoning abilities and through which features. We observe that
prompts need to contain natural language text accompanied by high-quality code
that closely represents the semantics of the instance text. Furthermore, we
show that code prompts are more efficient, requiring fewer demonstrations, and
that they trigger superior state tracking of variables or key entities.
- Abstract(参考訳): 推論は言語理解を達成するための基本的な要素である。
複数のタイプの推論、条件推論、ある条件によって異なる結論を引き出す能力は、大規模言語モデル(LLM)で検討されている。
思考の連鎖のような近年のプロンプト手法は推論タスクにおけるLLMを大幅に改善した。
しかしながら、LSMの推論能力の引き金となるものは、まだほとんど分かっていない。
我々は、コードプロンプトがテキストやコードで訓練されたLLMの条件推論をトリガーできると仮定する。
本稿では,自然言語問題をコードに変換する一連のプロンプトを提案し,生成したコードでLLMをプロンプトする。
実験の結果,GPT3.5では条件付き推論を必要とする複数のデータセットに対して,コードプロンプトのパフォーマンスが2.6から7.7ポイント向上していることがわかった。
次に、コードが条件付き推論能力をいかに促すか、どの機能を通すかを実験します。
我々は、インスタンステキストのセマンティクスを忠実に表現する高品質なコードを伴う自然言語テキストを含む必要があることを観察する。
さらに、コードプロンプトはより効率的で、デモを少なくし、変数やキーエンティティのより優れた状態追跡をトリガーすることを示す。
関連論文リスト
- Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Evaluating Large Language Models with Runtime Behavior of Program Execution [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,コードの推論能力とLLMの整合性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z) - At Which Training Stage Does Code Data Help LLMs Reasoning? [21.74241875923737]
本稿では,Large Language Models (LLM) に対するコードデータの影響について検討する。
コードとテキストの混合による事前学習 LLM は LLM の一般的な推論能力を大幅に向上させることができる。
命令チューニングの段階では、コードデータはLLMにタスク固有の推論能力を与える。
論文 参考訳(メタデータ) (2023-09-28T09:50:27Z) - Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large
Language Models [74.95486528482327]
コードプロンプト(code prompting)は、ゼロショットバージョンと少数ショットバージョンの両方を持ち、中間ステップとしてコードをトリガーするニューラルシンボルプロンプトである。
我々は,記号的推論と算術的推論を含む7つの広く使用されているベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-29T15:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。