論文の概要: Data Shifts Hurt CoT: A Theoretical Study
- arxiv url: http://arxiv.org/abs/2506.10647v1
- Date: Thu, 12 Jun 2025 12:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.732297
- Title: Data Shifts Hurt CoT: A Theoretical Study
- Title(参考訳): Data Shifts Hurt CoT: 理論的研究
- Authors: Lang Yin, Debangshu Banerjee, Gagandeep Singh,
- Abstract要約: Chain of Thought (CoT) は様々な大規模言語モデル (LLM) に適用され、出力の品質向上に有効であることが証明されている。
分散シフトとデータ中毒の2種類のデータシフトが、訓練されたモデルの品質に与える影響について検討する。
- 参考スコア(独自算出の注目度): 4.535612113234359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain of Thought (CoT) has been applied to various large language models (LLMs) and proven to be effective in improving the quality of outputs. In recent studies, transformers are proven to have absolute upper bounds in terms of expressive power, and consequently, they cannot solve many computationally difficult problems. However, empowered by CoT, transformers are proven to be able to solve some difficult problems effectively, such as the $k$-parity problem. Nevertheless, those works rely on two imperative assumptions: (1) identical training and testing distribution, and (2) corruption-free training data with correct reasoning steps. However, in the real world, these assumptions do not always hold. Although the risks of data shifts have caught attention, our work is the first to rigorously study the exact harm caused by such shifts to the best of our knowledge. Focusing on the $k$-parity problem, in this work we investigate the joint impact of two types of data shifts: the distribution shifts and data poisoning, on the quality of trained models obtained by a well-established CoT decomposition. In addition to revealing a surprising phenomenon that CoT leads to worse performance on learning parity than directly generating the prediction, our technical results also give a rigorous and comprehensive explanation of the mechanistic reasons of such impact.
- Abstract(参考訳): Chain of Thought (CoT) は様々な大規模言語モデル (LLM) に適用され、出力の品質向上に有効であることが証明されている。
近年の研究では、変換器は表現力の点で絶対上界を持つことが証明されており、多くの計算困難問題を解くことはできない。
しかし、CoTによって強化された変換器は、$k$-parity問題のような難解な問題を効果的に解くことができることが証明されている。
それにもかかわらず、これらの研究は、(1)同一のトレーニングとテストの分布、(2)正しい推論ステップを持つ汚職のないトレーニングデータという2つの衝動的な仮定に依存している。
しかし、現実の世界では、これらの仮定は常に成り立つとは限らない。
データシフトのリスクは注目されているものの、私たちの研究は、私たちの知識の最高の部分へのシフトによって引き起こされる、正確な害を厳格に研究する最初のものです。
本研究は、$k$-parity問題に着目し、分散シフトとデータ中毒という2種類のデータシフトが、確立されたCoT分解によるトレーニングモデルの品質に与える影響について検討する。
CoTが予測を直接生成するよりも学習パリティに悪影響を及ぼす驚くべき現象を明らかにすることに加えて、我々の技術結果は、そのような影響の機械的理由を厳密かつ包括的に説明する。
関連論文リスト
- Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。
因果効果は肯定的か否定的か?
本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文 参考訳(メタデータ) (2025-05-30T07:13:01Z) - Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization [35.16980045900664]
変圧器に基づく言語モデル(LM)の展開において、分散シフト下における新しい複合タスクへの一般化が重要である
本研究は、OODの一般化を促進する手段として、Chain-of-Thought (CoT)推論を考察する。
論文 参考訳(メタデータ) (2025-02-25T15:04:17Z) - Transformers Provably Solve Parity Efficiently with Chain of Thought [40.78854925996]
この研究は、複雑な問題を解決するためのトレーニングトランスの最初の理論的解析を提供する。
我々は、基本的な$k$-parity問題を解くために、1層トランスを訓練することを検討する。
論文 参考訳(メタデータ) (2024-10-11T08:55:17Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。