論文の概要: Towards Revealing the Mystery behind Chain of Thought: A Theoretical
Perspective
- arxiv url: http://arxiv.org/abs/2305.15408v5
- Date: Sat, 23 Dec 2023 02:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:42:51.550650
- Title: Towards Revealing the Mystery behind Chain of Thought: A Theoretical
Perspective
- Title(参考訳): 思考連鎖の背後にある謎の解明に向けて--理論的展望
- Authors: Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang
- Abstract要約: CoT(Chain-of-Thought prompting)は,大規模言語モデル(LLM)の性能を劇的に向上させる
我々は、CoTが動的プログラミング(Dynamic Programming)として知られる一般的な意思決定問題に対処できることを示します。
- 参考スコア(独自算出の注目度): 39.47116013338394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have discovered that Chain-of-Thought prompting (CoT) can
dramatically improve the performance of Large Language Models (LLMs),
particularly when dealing with complex tasks involving mathematics or
reasoning. Despite the enormous empirical success, the underlying mechanisms
behind CoT and how it unlocks the potential of LLMs remain elusive. In this
paper, we take a first step towards theoretically answering these questions.
Specifically, we examine the expressivity of LLMs with CoT in solving
fundamental mathematical and decision-making problems. By using circuit
complexity theory, we first give impossibility results showing that
bounded-depth Transformers are unable to directly produce correct answers for
basic arithmetic/equation tasks unless the model size grows super-polynomially
with respect to the input length. In contrast, we then prove by construction
that autoregressive Transformers of constant size suffice to solve both tasks
by generating CoT derivations using a commonly used math language format.
Moreover, we show LLMs with CoT can handle a general class of decision-making
problems known as Dynamic Programming, thus justifying its power in tackling
complex real-world tasks. Finally, an extensive set of experiments show that,
while Transformers always fail to directly predict the answers, they can
consistently learn to generate correct solutions step-by-step given sufficient
CoT demonstrations.
- Abstract(参考訳): 近年の研究では、特に数学や推論を含む複雑なタスクを扱う場合、CoT(Chain-of-Thought prompting)がLarge Language Models(LLM)の性能を劇的に改善できることが判明している。
実験的な成功にもかかわらず、CoTの背後にあるメカニズムとLLMの可能性を解き放つ方法はまだ解明されていない。
本稿では,これらの疑問に理論的に答える第一歩を踏み出す。
具体的には,基本的な数学的および意思決定問題の解法において,LLMとCoTとの表現性について検討する。
まず, 回路複雑性理論を用いて, モデルサイズが入力長に対して超多項的に増大しない限り, 有界深層トランスフォーマーは基本演算/方程式タスクに対して正解を直接生成できないことを示す。
それとは対照的に, 定サイズの自己回帰トランスフォーマーが, 一般的な数学言語形式を用いてcot導出を生成することにより, 両タスクの解決に十分であることを示す。
さらに,cotを用いたllmは動的プログラミングと呼ばれる一般的な意思決定問題を扱うことができ,複雑な実世界のタスクに取り組む際にその力を正当化できることを示した。
最後に、広範囲にわたる実験の結果、トランスフォーマーは常に直接答えを予測できないが、十分なCoTの実証から正しいソリューションを段階的に生成できることが示されている。
関連論文リスト
- Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Ask, and it shall be given: Turing completeness of prompting [47.08833920586575]
大規模言語モデル(LLM)は機械学習に革命をもたらし、いわゆるLLMプロンプトパラダイムを開始した。
本稿では, LLMプロンプトパラダイムに関する最初の理論的研究を, 我々の知識を最大限活用するために提示する。
有限サイズの変換器が存在し、計算可能な任意の関数に対して、変換器が関数を演算する対応するプロンプトが存在することを示す。
論文 参考訳(メタデータ) (2024-11-04T11:26:38Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - On Limitations of the Transformer Architecture [15.329285967441372]
本稿では,関数の領域が十分に大きい場合,Transformer層は関数を構成することができないことを示す。
また,LLMにとって難しいと思われる構成課題の中核にある数種類の数学的タスクは,トランスフォーマーが解けるとは考えにくいことを指摘する。
論文 参考訳(メタデータ) (2024-02-13T01:52:15Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。