論文の概要: Towards Revealing the Mystery behind Chain of Thought: a Theoretical
Perspective
- arxiv url: http://arxiv.org/abs/2305.15408v2
- Date: Thu, 1 Jun 2023 17:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 21:23:29.001369
- Title: Towards Revealing the Mystery behind Chain of Thought: a Theoretical
Perspective
- Title(参考訳): 思考連鎖の背後にある謎の解明に向けて--理論的展望
- Authors: Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang
- Abstract要約: CoT(Chain-of-Thought prompting)は,大規模言語モデル(LLM)の性能を劇的に向上させる
我々は、CoT を用いた LLM が、動的プログラミング(Dynamic Programming)として知られる、一般的な意思決定問題のクラスを解くことができることを示す。
- 参考スコア(独自算出の注目度): 28.483645483550102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have discovered that Chain-of-Thought prompting (CoT) can
dramatically improve the performance of Large Language Models (LLMs),
particularly when dealing with complex tasks involving mathematics or
reasoning. Despite the enormous empirical success, the underlying mechanisms
behind CoT and how it unlocks the potential of LLMs remain elusive. In this
paper, we take a first step towards theoretically answering these questions.
Specifically, we examine the expressivity of LLMs with CoT in solving
fundamental mathematical and decision-making problems. We start by giving an
impossibility result showing that bounded-depth Transformers are unable to
directly produce correct answers for basic arithmetic/equation tasks unless the
model size grows super-polynomially with respect to the input length. In
contrast, we then prove by construction that autoregressive Transformers of
constant size suffice to solve both tasks by generating CoT derivations using a
commonly-used math language format. Moreover, we show LLMs with CoT are capable
of solving a general class of decision-making problems known as Dynamic
Programming, thus justifying its power in tackling complex real-world tasks.
Finally, extensive experiments on four tasks show that, while Transformers
always fail to predict the answers directly, they can consistently learn to
generate correct solutions step-by-step given sufficient CoT demonstrations.
- Abstract(参考訳): 近年の研究では、特に数学や推論を含む複雑なタスクを扱う場合、CoT(Chain-of-Thought prompting)がLarge Language Models(LLM)の性能を劇的に改善できることが判明している。
実験的な成功にもかかわらず、CoTの背後にあるメカニズムとLLMの可能性を解き放つ方法はまだ解明されていない。
本稿では,これらの疑問に理論的に答える第一歩を踏み出す。
具体的には,基本的な数学的および意思決定問題の解法において,LLMとCoTとの表現性について検討する。
まず,モデルサイズが入力長に対して超多項式的に大きくなる限り,有界深度変換器は基本演算/方程式タスクの正解を直接生成できないことを示す。
対照的に,定サイズの自己回帰変換器は,一般的な数学言語形式を用いてCoTの導出を生成することで,両方のタスクを解くのに十分であることを示す。
さらに, COT を用いた LLM は, 動的プログラミング(Dynamic Programming) と呼ばれる一般的な意思決定問題を解くことができ, 複雑な実世界のタスクに対処する能力の正当化を図っている。
最後に、4つのタスクに関する広範な実験では、トランスフォーマーは常に直接答えを予測できないが、十分なCoTの実証から正しいソリューションを段階的に生成できることが示されている。
関連論文リスト
- Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Ask, and it shall be given: Turing completeness of prompting [47.08833920586575]
大規模言語モデル(LLM)は機械学習に革命をもたらし、いわゆるLLMプロンプトパラダイムを開始した。
本稿では, LLMプロンプトパラダイムに関する最初の理論的研究を, 我々の知識を最大限活用するために提示する。
有限サイズの変換器が存在し、計算可能な任意の関数に対して、変換器が関数を演算する対応するプロンプトが存在することを示す。
論文 参考訳(メタデータ) (2024-11-04T11:26:38Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - On Limitations of the Transformer Architecture [15.329285967441372]
本稿では,関数の領域が十分に大きい場合,Transformer層は関数を構成することができないことを示す。
また,LLMにとって難しいと思われる構成課題の中核にある数種類の数学的タスクは,トランスフォーマーが解けるとは考えにくいことを指摘する。
論文 参考訳(メタデータ) (2024-02-13T01:52:15Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。