論文の概要: Analyzing the Power of Chain of Thought through Memorization Capabilities
- arxiv url: http://arxiv.org/abs/2511.01190v1
- Date: Mon, 03 Nov 2025 03:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.103037
- Title: Analyzing the Power of Chain of Thought through Memorization Capabilities
- Title(参考訳): 記憶機能を利用した思考の連鎖力の分析
- Authors: Lijia Yu, Xiao-Shan Gao, Lijun Zhang,
- Abstract要約: 思考の連鎖(CoT)は、ある数学的推論問題を解決するために、大きな言語モデル(LLM)のパワーを高めることができる。
変換器を用いた推論は、基本的には推論データセットの記憶問題であることを示す。
- 参考スコア(独自算出の注目度): 36.784820354087216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been shown that the chain of thought (CoT) can enhance the power of large language models (LLMs) to solve certain mathematical reasoning problems. However, the capacity of CoT is still not fully explored. As an important instance, the following basic question has not yet been answered: Does CoT expand the capability of transformers across all reasoning tasks? We demonstrate that reasoning with transformers is essentially a memorization problem for reasoning datasets. Thus, examining the power of CoT across all reasoning tasks amounts to analyzing the memorization capabilities of CoT transformers. In this paper, we give a complete description of the memorization capabilities of fixed-precision transformers with or without CoT and give a negative answer to the above-mentioned question. Precisely, we first give necessary and sufficient conditions for fixed-precision transformers with and without CoT to memorize a finite reasoning dataset and show that these two conditions do not imply each other. Then, we give lower and upper bounds for the number of parameters needed for transformers with or without CoT to memorize a finite reasoning dataset with $N$ elements, which are $\overline{\Theta}(N)$ in all cases. This implies that there exist reasoning tasks for which CoT does not enhance the reasoning power of transformers, leading to a negative answer to the above-mentioned question. Finally, we give the first results on memorizing infinite reasoning datasets by CoT transformers and show that some simple infinite datasets cannot be memorized by transformers with or without CoT.
- Abstract(参考訳): 思考の連鎖(CoT)は、ある数学的推論問題を解くために大きな言語モデル(LLM)のパワーを高めることが示されている。
しかし、CoTの容量はまだ完全には調査されていない。
CoTはすべての推論タスクにわたってトランスフォーマーの能力を拡大していますか?
変換器を用いた推論は、基本的には推論データセットの記憶問題であることを示す。
このように、全ての推論タスクにおけるCoTのパワーを調べることは、CoT変換器の記憶能力を分析することにつながる。
本稿では,CoTの有無に関わらず固定精度変圧器の記憶機能を完全に記述し,上記の質問に対して負の回答を与える。
正確には、我々はまず、CoTを伴わない固定精度変換器において、有限推論データセットを記憶するために必要かつ十分な条件を与え、これら2つの条件が互いに意味を示さないことを示す。
すると、CoTの有無にかかわらず変換器に必要なパラメータ数について下限と上限を与え、すべての場合、$\overline{\Theta}(N)$である$N$要素を持つ有限推論データセットを記憶する。
これは、CoTが変圧器の推論能力を高めない推論タスクが存在し、上記の質問に対する否定的な回答をもたらすことを意味する。
最後に、CoT変換器による無限推論データセットの記憶に関する最初の結果を示し、CoTの有無に関わらず、いくつかの単純な無限推論データセットは変換器によって記憶できないことを示す。
関連論文リスト
- Lower Bounds for Chain-of-Thought Reasoning in Hard-Attention Transformers [5.4649464326326]
整合推論とスクラッチパッドは、変換器の計算能力を高める重要なツールとして登場した。
本研究では,異なるアルゴリズム問題におけるチェーン・オブ・シント・ステップの数に対する体系的下界の研究を開始する。
論文 参考訳(メタデータ) (2025-02-04T15:14:01Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。