論文の概要: How does Chain of Thought decompose complex tasks?
- arxiv url: http://arxiv.org/abs/2604.08872v1
- Date: Fri, 10 Apr 2026 02:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.638775
- Title: How does Chain of Thought decompose complex tasks?
- Title(参考訳): Chain of Thoughtはどのように複雑なタスクを分解するか?
- Authors: Amrut Nadgir, Vijay Balasubramanian, Pratik Chaudhari,
- Abstract要約: このような問題における分類誤差は、クラス数におけるパワー則としてスケールすることを示す。
全体のタスクをより小さな分類問題に分割することで、予測誤差を大幅に低減することができる。
- 参考スコア(独自算出の注目度): 16.56150796710892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many language tasks can be modeled as classification problems where a large language model (LLM) is given a prompt and selects one among many possible answers. We show that the classification error in such problems scales as a power law in the number of classes. This has a dramatic consequence: the prediction error can be reduced substantially by splitting the overall task into a sequence of smaller classification problems, each with the same number of classes ("degree"). This tree-structured decomposition models chain-of-thought (CoT). It has been observed that CoT-based predictors perform better when they "think'", i.e., when they develop a deeper tree, thus decomposing the problem into a larger number of steps. We identify a critical threshold for the degree, below which thinking is detrimental, and above which there exists an optimal depth that minimizes the error. It is impossible to surpass this minimal error by increasing the depth of thinking.
- Abstract(参考訳): 多くの言語タスクは、大きな言語モデル(LLM)がプロンプトを与えられ、多くの可能な答えの中から1つを選択するという分類問題としてモデル化できる。
このような問題における分類誤差は、クラス数におけるパワー則としてスケールすることを示す。
これは劇的な結果であり、予測誤差は全体のタスクを、同じ数のクラス(「次数」)を持つより小さな分類問題列に分割することで大幅に減少することができる。
この木構造分解モデルはチェーン・オブ・シント(CoT)である。
CoTベースの予測器は、より深い木を開発するとき、すなわち、問題をより多くのステップに分解するときに、より優れた性能を発揮することが観察されている。
我々は、思考が有害な程度に重要なしきい値を特定し、その上にエラーを最小限に抑える最適な深さが存在することを示す。
思考の深みを増すことで、この最小限の誤りを克服することは不可能である。
関連論文リスト
- Do Larger Language Models Generalize Better? A Scaling Law for Implicit Reasoning at Pretraining Time [73.22651918134808]
この研究は、モデルサイズのスケーリングによる直感的効果を示し、言語モデル(LM)におけるスケーリングと推論の関係に関する新たな洞察を提供する。
我々は,実世界の大規模知識グラフの構造と分布を再現する合成暗黙のマルチホップ推論環境において,ゼロからLMを事前学習する。
次に、実世界の事前学習における暗黙的推論の単純化とみなすことができるマルチホップ推論を必要とする、グラフの欠落したエッジを完遂するLMの能力を評価する。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - Harnessing Superclasses for Learning from Hierarchical Databases [1.835004446596942]
多くの大規模分類問題において、クラスは既知の階層に整理され、通常木として表される。
この種の教師付き階層分類の損失について紹介する。
提案手法では,クロスエントロピーの損失に比較して,計算コストの大幅な増大は伴わない。
論文 参考訳(メタデータ) (2024-11-25T14:39:52Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - An improved column-generation-based matheuristic for learning
classification trees [9.07661731728456]
決定木は機械学習(ML)における分類問題の解法として高度に解釈可能なモデルである
決定木を訓練するための標準的なMLアルゴリズムは高速だが、精度の点で最適木を生成する。
citefirat 2020column氏は、意思決定木を学習するためのカラムジェネレーションベースのアプローチを提案した。
論文 参考訳(メタデータ) (2023-08-22T14:43:36Z) - Chaining Simultaneous Thoughts for Numerical Reasoning [92.2007997126144]
テキストによる数値推論は、AIシステムにとって不可欠なスキルであるべきです。
これまでの研究は方程式の構造をモデル化することに集中し、様々な構造化デコーダを提案してきた。
我々は、有向非巡回グラフを用いてステップを推論する数値推論器CANTORを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:52:06Z) - Set-valued prediction in hierarchical classification with constrained
representation complexity [4.258263831866309]
階層的多クラス分類問題に焦点をあて、有効集合が階層の内部ノードに対応する。
我々は3つの手法を提案し、それらをベンチマークデータセット上で評価する。
論文 参考訳(メタデータ) (2022-03-13T15:13:19Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Robust Estimation of Tree Structured Ising Models [20.224160348675422]
我々は、異なる確率変数の符号が、おそらく不等で未知の確率で独立に反転するときに、イジングモデルを学習するタスクを考える。
しかし, この不同一性は, 葉ノードが近傍と位置を交換して形成する小さな同値類に限られる。
論文 参考訳(メタデータ) (2020-06-10T01:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。