Fugu-MT 論文翻訳(概要): Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective

論文の概要: Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective

arxiv url: http://arxiv.org/abs/2305.15408v2
Date: Thu, 1 Jun 2023 17:35:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 21:23:29.001369
Title: Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective
Title（参考訳）: 思考連鎖の背後にある謎の解明に向けて--理論的展望
Authors: Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang
Abstract要約: CoT(Chain-of-Thought prompting)は,大規模言語モデル(LLM)の性能を劇的に向上させる我々は、CoT を用いた LLM が、動的プログラミング(Dynamic Programming)として知られる、一般的な意思決定問題のクラスを解くことができることを示す。
参考スコア（独自算出の注目度）: 28.483645483550102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks involving mathematics or reasoning. Despite the enormous empirical success, the underlying mechanisms behind CoT and how it unlocks the potential of LLMs remain elusive. In this paper, we take a first step towards theoretically answering these questions. Specifically, we examine the expressivity of LLMs with CoT in solving fundamental mathematical and decision-making problems. We start by giving an impossibility result showing that bounded-depth Transformers are unable to directly produce correct answers for basic arithmetic/equation tasks unless the model size grows super-polynomially with respect to the input length. In contrast, we then prove by construction that autoregressive Transformers of constant size suffice to solve both tasks by generating CoT derivations using a commonly-used math language format. Moreover, we show LLMs with CoT are capable of solving a general class of decision-making problems known as Dynamic Programming, thus justifying its power in tackling complex real-world tasks. Finally, extensive experiments on four tasks show that, while Transformers always fail to predict the answers directly, they can consistently learn to generate correct solutions step-by-step given sufficient CoT demonstrations.
Abstract（参考訳）: 近年の研究では、特に数学や推論を含む複雑なタスクを扱う場合、CoT(Chain-of-Thought prompting)がLarge Language Models(LLM)の性能を劇的に改善できることが判明している。実験的な成功にもかかわらず、CoTの背後にあるメカニズムとLLMの可能性を解き放つ方法はまだ解明されていない。本稿では,これらの疑問に理論的に答える第一歩を踏み出す。具体的には,基本的な数学的および意思決定問題の解法において,LLMとCoTとの表現性について検討する。まず,モデルサイズが入力長に対して超多項式的に大きくなる限り,有界深度変換器は基本演算/方程式タスクの正解を直接生成できないことを示す。対照的に,定サイズの自己回帰変換器は,一般的な数学言語形式を用いてCoTの導出を生成することで,両方のタスクを解くのに十分であることを示す。さらに, COT を用いた LLM は, 動的プログラミング(Dynamic Programming) と呼ばれる一般的な意思決定問題を解くことができ, 複雑な実世界のタスクに対処する能力の正当化を図っている。最後に、4つのタスクに関する広範な実験では、トランスフォーマーは常に直接答えを予測できないが、十分なCoTの実証から正しいソリューションを段階的に生成できることが示されている。

関連論文リスト

RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。 AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文参考訳（メタデータ） (2025-06-22T17:46:14Z)
Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
Why Does Your CoT Prompt (Not) Work? Theoretical Analysis of Prompt Space Complexity, its Interaction with Answer Space During CoT Reasoning with LLMs: A Recurrent Perspective [15.941209553757274]
CoT(Chain-of-Thought)プロンプトは、LLM(Large Language Models)の限界に対する実用的な解決策として登場した。本稿では,2つの重要な空間,すなわちプロンプト空間と応答空間の間の複雑性と相互作用について,厳密な理論的解析を行う。我々は、時として人間の監督が、プロンプト空間を効率的にナビゲートするために重要であることを示す。
論文参考訳（メタデータ） (2025-03-13T06:11:10Z)
Towards Understanding Multi-Round Large Language Model Reasoning: Approximability, Learnability and Generalizability [18.54202114336492]
マルチラウンド自動回帰モデルの近似,学習可能性,一般化特性について検討する。有限コンテキストウィンドウを持つ変換器はチューリング計算可能関数のステップに対する普遍近似器であることを示す。我々はPAC学習をシーケンス生成に拡張し、シーケンス長がモデルのコンテキストウィンドウを超えた場合でも、マルチラウンド生成が学習可能であることを示す。
論文参考訳（メタデータ） (2025-03-05T02:50:55Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文参考訳（メタデータ） (2024-11-04T15:54:32Z)
Ask, and it shall be given: Turing completeness of prompting [47.08833920586575]
大規模言語モデル(LLM)は機械学習に革命をもたらし、いわゆるLLMプロンプトパラダイムを開始した。本稿では, LLMプロンプトパラダイムに関する最初の理論的研究を, 我々の知識を最大限活用するために提示する。有限サイズの変換器が存在し、計算可能な任意の関数に対して、変換器が関数を演算する対応するプロンプトが存在することを示す。
論文参考訳（メタデータ） (2024-11-04T11:26:38Z)
Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文参考訳（メタデータ） (2024-10-18T06:25:27Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文参考訳（メタデータ） (2024-02-20T10:11:03Z)
On Limitations of the Transformer Architecture [15.329285967441372]
本稿では,関数の領域が十分に大きい場合,Transformer層は関数を構成することができないことを示す。また,LLMにとって難しいと思われる構成課題の中核にある数種類の数学的タスクは,トランスフォーマーが解けるとは考えにくいことを指摘する。
論文参考訳（メタデータ） (2024-02-13T01:52:15Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。