論文の概要: Chain-of-Thought Prompting for Out-of-Distribution Samples: A Latent-Variable Study
- arxiv url: http://arxiv.org/abs/2504.12991v1
- Date: Thu, 17 Apr 2025 14:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 18:24:38.963848
- Title: Chain-of-Thought Prompting for Out-of-Distribution Samples: A Latent-Variable Study
- Title(参考訳): ディストリビューション・サンプルのチェーン・オブ・トウト・プロンプト : 潜時変動研究
- Authors: Yu Wang, Fu-Chieh Chang, Pei-Yuan Wu,
- Abstract要約: CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおけるコンテキスト内学習を改善するための強力なテクニックとして登場した。
我々は、CoTの潜在変数フレームワークを拡張し、その振る舞いを2つのオフ・オブ・ディストリビューション(OOD)シナリオで研究する。
実験により, 潜伏変数がトレーニング中に見られるものとよく似ているOODサンプルに対して, CoT推論が効果的に一般化することを示したが, この類似性が低下すると性能が低下する。
- 参考スコア(独自算出の注目度): 5.236910203359897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has emerged as a powerful technique to improve in-context learning (ICL) in large language models (LLMs) by breaking complex reasoning into intermediate steps. However, the ability of CoT to generalize under distribution shift remains poorly understood. In this work, we extend a latent-variable framework for CoT prompting and study its behavior on two prototypical out-of-distribution (OOD) scenarios: (i) the latent variables for CoT steps are permuted into novel combinations, and (ii) the latent variables uniformly scaled by a factor. Our experiments demonstrate that CoT inference generalizes effectively to OOD samples whose latent variables closely resemble those seen during training, but its performance degrades as this similarity decreases. These findings provide foundational insights into the strengths and limitations of CoT prompting under OOD conditions and suggest directions for developing more resilient reasoning strategies in future LLMs.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、複雑な推論を中間ステップに分割することで、大規模言語モデル(LLM)における文脈内学習(ICL)を改善する強力な手法として登場した。
しかし、分布シフト下でのCoTの一般化能力は未だよく分かっていない。
本研究では、CoTの潜在変数フレームワークを拡張し、その振る舞いを2つの原型アウト・オブ・ディストリビューション(OOD)シナリオで研究する。
i)CoTステップの潜伏変数は、新しい組み合わせに置換され、
(ii)因子によって一様にスケールされた潜伏変数。
実験により, 潜伏変数がトレーニング中に見られるものとよく似ているOODサンプルに対して, CoT推論が効果的に一般化することを示したが, この類似性が低下すると性能は低下する。
これらの知見は,COTの強度と限界に関する基礎的な洞察を与え,今後のLCMにおいてより弾力性のある推論戦略を開発するための方向性を示唆している。
関連論文リスト
- Graded Transformers: A Symbolic-Geometric Approach to Structured Learning [0.0]
ベクトル空間上の階調変換を通じて帰納バイアスを埋め込む新しいシーケンスモデルを導入する。
Graded Transformerは階層的学習とニューロシンボリック推論のための変換ポテンシャルを持つ。
この研究は、幾何学的および代数的原理と注意機構を融合させることにより、構造化されたディープラーニングを促進する。
論文 参考訳(メタデータ) (2025-07-27T02:34:08Z) - Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - One-Layer Transformers are Provably Optimal for In-context Reasoning and Distributional Association Learning in Next-Token Prediction Tasks [11.06955946904705]
そこで本研究では,一層変圧器の非雑音・雑音環境における近似能力と収束挙動について検討した。
我々の研究は、線形およびReLUの両方の注意を払って、確実にベイズ最適である一層変圧器のクラスが存在することを示すことによってギャップに対処する。
論文 参考訳(メタデータ) (2025-05-21T01:26:44Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。
CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。
パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization [35.16980045900664]
変圧器に基づく言語モデル(LM)の展開において、分散シフト下における新しい複合タスクへの一般化が重要である
本研究は、OODの一般化を促進する手段として、Chain-of-Thought (CoT)推論を考察する。
論文 参考訳(メタデータ) (2025-02-25T15:04:17Z) - Unveiling the Mechanisms of Explicit CoT Training: How Chain-of-Thought Enhances Reasoning Generalization [9.191236388401226]
高品質なChain-of-Thought(CoT)アノテーションを用いた大規模言語モデルのトレーニングが広く採用されている。
我々は,CoT を用いたトレーニングにより推論の一般化が著しく改善され,ID とout-of-distriion (OOD) の両方のシナリオに拡張され,収束のスピードが向上することを示した。
本研究は, 明示的CoTトレーニングの基盤となるメカニズムを解明し, 堅牢な一般化を実現するため, LLMのチューニング戦略に対する重要な洞察を提供するものである。
論文 参考訳(メタデータ) (2025-02-07T05:21:13Z) - From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency [17.612497960364916]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論性能を著しく向上させる
代表電力が十分である場合でも,CoTは試料効率を大幅に向上できることを示す。
CoTは入力トークン間のスパース依存関係を導入して学習プロセスを単純化し、スパースかつ解釈可能な注意を喚起することを示す。
論文 参考訳(メタデータ) (2024-10-07T19:45:09Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Existence, Stability and Scalability of Orthogonal Convolutional Neural
Networks [1.0742675209112622]
ニューラルネットワークの層に直交性を導入することは、勾配の爆発/消滅を制限することによって学習を促進することが知られている。
本稿では直交畳み込み層の理論的性質について検討する。
論文 参考訳(メタデータ) (2021-08-12T09:30:53Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。