論文の概要: Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking
- arxiv url: http://arxiv.org/abs/2502.20129v2
- Date: Wed, 12 Mar 2025 15:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:37:28.194610
- Title: Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking
- Title(参考訳): チェーンオブサート付き変圧器内部の有限状態オートマタ:状態追跡に関する力学的検討
- Authors: Yifan Zhang, Wenyu Du, Dongming Jin, Jie Fu, Zhi Jin,
- Abstract要約: CoT(Chain-of-Thought)は、幅広いタスクにわたる大規模言語モデル(LLM)の性能を大幅に向上させる。
本研究では,Transformer+CoTとその変種の状態追跡機能の評価を行い,CoTの有効性を確認した。
圧縮と区別という2つの指標を提案し、各状態のニューロンセットが100%近い精度を達成することを示す。
- 参考スコア(独自算出の注目度): 41.3496135369579
- License:
- Abstract: Chain-of-Thought (CoT) significantly enhances the performance of large language models (LLMs) across a wide range of tasks, and prior research shows that CoT can theoretically increase expressiveness. However, there is limited mechanistic understanding of the algorithms that Transformer+CoT can learn. In this work, we (1) evaluate the state tracking capabilities of Transformer+CoT and its variants, confirming the effectiveness of CoT. (2) Next, we identify the circuit, a subset of model components, responsible for tracking the world state, finding that late-layer MLP neurons play a key role. We propose two metrics, compression and distinction, and show that the neuron sets for each state achieve nearly 100% accuracy, providing evidence of an implicit finite state automaton (FSA) embedded within the model. (3) Additionally, we explore three realistic settings: skipping intermediate steps, introducing data noise, and testing length generalization. Our results demonstrate that Transformer+CoT learns robust algorithms (FSA), highlighting its resilience in challenging scenarios.
- Abstract(参考訳): CoT(Chain-of-Thought)は,幅広いタスクにわたる大規模言語モデル(LLM)の性能を著しく向上させる。
しかし、Transformer+CoTが学習できるアルゴリズムの機械的理解は限られている。
本研究では,(1)Transformer+CoTとその変種の状態追跡機能の評価を行い,CoTの有効性を確認した。
2) 次に,後層のMLPニューロンが重要な役割を担っていることを知り,世界状態の追跡に責任を負うモデル成分のサブセットである回路を同定する。
圧縮と区別という2つの指標を提案し、各状態に対するニューロンセットが100%近い精度を達成し、モデル内に暗黙の有限状態オートマトン(FSA)が埋め込まれていることを示す。
さらに,中間段階のスキップ,データノイズの導入,テスト長の一般化という3つの現実的な設定についても検討する。
以上の結果から,Transformer+CoTはロバストアルゴリズム(FSA)を学習し,挑戦的なシナリオにおけるレジリエンスを強調した。
関連論文リスト
- Transformers Provably Solve Parity Efficiently with Chain of Thought [40.78854925996]
この研究は、複雑な問題を解決するためのトレーニングトランスの最初の理論的解析を提供する。
我々は、基本的な$k$-parity問題を解くために、1層トランスを訓練することを検討する。
論文 参考訳(メタデータ) (2024-10-11T08:55:17Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - An Improved Single Step Non-autoregressive Transformer for Automatic
Speech Recognition [28.06475768075206]
非自己回帰機構は、音声変換器の推論時間を著しく短縮することができる。
CTCアライメントに基づく単一ステップ非自己回帰変換器(CASS-NAT)の以前の研究は、自己回帰変換器(AT)よりも大きなリアルタイム係数(RTF)の改善を示している。
エンド・ツー・エンドのCASS-NATの精度を向上させるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2021-06-18T02:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。