Fugu-MT 論文翻訳(概要): Data Shifts Hurt CoT: A Theoretical Study

論文の概要: Data Shifts Hurt CoT: A Theoretical Study

arxiv url: http://arxiv.org/abs/2506.10647v1
Date: Thu, 12 Jun 2025 12:38:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.732297
Title: Data Shifts Hurt CoT: A Theoretical Study
Title（参考訳）: Data Shifts Hurt CoT: 理論的研究
Authors: Lang Yin, Debangshu Banerjee, Gagandeep Singh,
Abstract要約: Chain of Thought (CoT) は様々な大規模言語モデル (LLM) に適用され、出力の品質向上に有効であることが証明されている。分散シフトとデータ中毒の2種類のデータシフトが、訓練されたモデルの品質に与える影響について検討する。
参考スコア（独自算出の注目度）: 4.535612113234359
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain of Thought (CoT) has been applied to various large language models (LLMs) and proven to be effective in improving the quality of outputs. In recent studies, transformers are proven to have absolute upper bounds in terms of expressive power, and consequently, they cannot solve many computationally difficult problems. However, empowered by CoT, transformers are proven to be able to solve some difficult problems effectively, such as the $k$-parity problem. Nevertheless, those works rely on two imperative assumptions: (1) identical training and testing distribution, and (2) corruption-free training data with correct reasoning steps. However, in the real world, these assumptions do not always hold. Although the risks of data shifts have caught attention, our work is the first to rigorously study the exact harm caused by such shifts to the best of our knowledge. Focusing on the $k$-parity problem, in this work we investigate the joint impact of two types of data shifts: the distribution shifts and data poisoning, on the quality of trained models obtained by a well-established CoT decomposition. In addition to revealing a surprising phenomenon that CoT leads to worse performance on learning parity than directly generating the prediction, our technical results also give a rigorous and comprehensive explanation of the mechanistic reasons of such impact.
Abstract（参考訳）: Chain of Thought (CoT) は様々な大規模言語モデル (LLM) に適用され、出力の品質向上に有効であることが証明されている。近年の研究では、変換器は表現力の点で絶対上界を持つことが証明されており、多くの計算困難問題を解くことはできない。しかし、CoTによって強化された変換器は、$k$-parity問題のような難解な問題を効果的に解くことができることが証明されている。それにもかかわらず、これらの研究は、(1)同一のトレーニングとテストの分布、(2)正しい推論ステップを持つ汚職のないトレーニングデータという2つの衝動的な仮定に依存している。しかし、現実の世界では、これらの仮定は常に成り立つとは限らない。データシフトのリスクは注目されているものの、私たちの研究は、私たちの知識の最高の部分へのシフトによって引き起こされる、正確な害を厳格に研究する最初のものです。本研究は、$k$-parity問題に着目し、分散シフトとデータ中毒という2種類のデータシフトが、確立されたCoT分解によるトレーニングモデルの品質に与える影響について検討する。 CoTが予測を直接生成するよりも学習パリティに悪影響を及ぼす驚くべき現象を明らかにすることに加えて、我々の技術結果は、そのような影響の機械的理由を厳密かつ包括的に説明する。

関連論文リスト

Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。因果効果は肯定的か否定的か? 本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文参考訳（メタデータ） (2025-05-30T07:13:01Z)
Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization [35.16980045900664]
変圧器に基づく言語モデル(LM)の展開において、分散シフト下における新しい複合タスクへの一般化が重要である本研究は、OODの一般化を促進する手段として、Chain-of-Thought (CoT)推論を考察する。
論文参考訳（メタデータ） (2025-02-25T15:04:17Z)
Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文参考訳（メタデータ） (2024-12-21T00:40:58Z)
Transformers Provably Solve Parity Efficiently with Chain of Thought [40.78854925996]
この研究は、複雑な問題を解決するためのトレーニングトランスの最初の理論的解析を提供する。我々は、基本的な$k$-parity問題を解くために、1層トランスを訓練することを検討する。
論文参考訳（メタデータ） (2024-10-11T08:55:17Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
How Out-of-Distribution Detection Learning Theory Enhances Transformer: Learnability and Reliability [10.056026416603006]
本稿では,変圧器のOOD検出確率近似(PAC)理論を紹介する。条件下での十分なデータで、アウトリーチを正確に表現し、区別できることが示される。このアプローチは、学習可能性を確保し、インレーヤとアウトレーヤの間の決定境界を洗練する新しいアルゴリズムをもたらす。
論文参考訳（メタデータ） (2024-06-13T17:54:09Z)
Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文参考訳（メタデータ） (2023-11-03T03:18:40Z)
Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文参考訳（メタデータ） (2023-07-15T23:53:37Z)
Distributed Methods with Compressed Communication for Solving Variational Inequalities, with Theoretical Guarantees [115.08148491584997]
本稿では,MASHA1 と MASHA2 の圧縮通信による変分不等式とサドル点問題の解法について理論的に検討した。新しいアルゴリズムは双方向圧縮をサポートし、バッチの設定や、クライアントの部分的な参加を伴うフェデレーション学習のために修正することもできる。
論文参考訳（メタデータ） (2021-10-07T10:04:32Z)
CETransformer: Casual Effect Estimation via Transformer Based Representation Learning [17.622007687796756]
データ駆動因果効果推定は、選択バイアスと反事実の欠如という2つの大きな課題に直面している。これら2つの問題に対処するため、既存のアプローチのほとんどは、バランスの取れた表現を学ぶことで選択バイアスを減らす傾向にある。本稿では,CETransformerモデルを用いて,変換器を用いた表現学習によるカジュアルエフェクト推定を提案する。
論文参考訳（メタデータ） (2021-07-19T09:39:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。