論文の概要: Transformers with RL or SFT Provably Learn Sparse Boolean Functions, But Differently
- arxiv url: http://arxiv.org/abs/2511.17852v1
- Date: Sat, 22 Nov 2025 00:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.475205
- Title: Transformers with RL or SFT Provably Learn Sparse Boolean Functions, But Differently
- Title(参考訳): RLまたはSFTを用いた変換器はスパースブール関数を学習するが、異なる。
- Authors: Bochen Lyu, Yiyang Jia, Xiaohao Cai, Zhanxing Zhu,
- Abstract要約: 強化学習(RL)と教師付き微調整(SFT)は、この目的に対する2つの主要なアプローチであるが、その基盤となるメカニズムと違いは理論的に不明である。
変換器をRLまたはSFTでCoTで微調整する学習力学を解析し,これらの関数を確実に学習するのに十分な条件を同定する。
RLはCoTチェーン全体を同時に学習し、SFTはCoTチェーンをステップバイステップで学習する。
- 参考スコア(独自算出の注目度): 20.12397699480725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers can acquire Chain-of-Thought (CoT) capabilities to solve complex reasoning tasks through fine-tuning. Reinforcement learning (RL) and supervised fine-tuning (SFT) are two primary approaches to this end, yet their underlying mechanisms and differences remain theoretically unclear. In this work, we examine these aspects specifically for learning $k$-sparse Boolean functions with a one-layer transformer and intermediate supervision that is akin to CoT. In particular, we consider $k$-sparse Boolean functions that can be recursively decomposed into fixed 2-sparse Boolean functions. We analyze the learning dynamics of fine-tuning the transformer via either RL or SFT with CoT to identify sufficient conditions for it to provably learn these functions. We verify that these conditions hold for three basic examples, including $k$-PARITY, $k$-AND, and $k$-OR, thus demonstrating the learnability of both approaches. Notably, we reveal that RL and SFT exhibit distinct learning behaviors: RL learns the whole CoT chain simultaneously, whereas SFT learns the CoT chain step-by-step. Overall, our findings provide theoretical insights into the underlying mechanisms of RL and SFT as well as how they differ in triggering the CoT capabilities of transformers.
- Abstract(参考訳): トランスフォーマーは、微調整によって複雑な推論タスクを解決するためにChain-of-Thought(CoT)機能を取得することができる。
強化学習(RL)と教師付き微調整(SFT)は、この目的に対する2つの主要なアプローチであるが、その基盤となるメカニズムと違いは理論的に不明である。
本研究では,CoTに類似した1層変換器と中間監督器を用いて,$k$sparse Boolean関数を学習するためのこれらの側面について検討する。
特に、$k$-sparse Boolean関数を2-sparse Boolean関数に再帰的に分解することができる。
変換器をRLまたはSFTでCoTで微調整する学習力学を解析し,これらの関数を確実に学習するのに十分な条件を同定する。
これらの条件は、$k$-PARITY、$k$-AND、$k$-ORの3つの基本的な例に当てはまり、両方のアプローチの学習可能性を示す。
RLはCoTチェーン全体を同時に学習し、SFTはCoTチェーンをステップバイステップで学習する。
以上の結果から, RL と SFT の基盤となるメカニズムと, トランスのCoT 能力の相違について理論的知見が得られた。
関連論文リスト
- The Kinetics of Reasoning: How Chain-of-Thought Shapes Learning in Transformers? [25.29458951592086]
チェーン・オブ・シント(CoT)の監督はトランスフォーマーの性能を大幅に向上させることができる。
シンボリック推論タスクにおけるトランスフォーマーの事前学習により、これらの学習ダイナミクスをグラクキングのレンズを通して検討する。
論文 参考訳(メタデータ) (2025-10-28T20:14:26Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking [41.3496135369579]
CoT(Chain-of-Thought)は、幅広いタスクにわたる大規模言語モデル(LLM)の性能を大幅に向上させる。
Transformer+CoTが学習できるアルゴリズムの機械的理解は限られている。
我々はTransformer+CoTとその変種の状態追跡機能の評価を行い,CoTの有効性を確認した。
論文 参考訳(メタデータ) (2025-02-27T14:24:51Z) - From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency [17.612497960364916]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論性能を著しく向上させる
代表電力が十分である場合でも,CoTは試料効率を大幅に向上できることを示す。
CoTは入力トークン間のスパース依存関係を導入して学習プロセスを単純化し、スパースかつ解釈可能な注意を喚起することを示す。
論文 参考訳(メタデータ) (2024-10-07T19:45:09Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。