論文の概要: Autoregressive + Chain of Thought (CoT) $\simeq$ Recurrent: Recurrence's Role in Language Models and a Revist of Recurrent Transformer
- arxiv url: http://arxiv.org/abs/2409.09239v1
- Date: Sat, 14 Sep 2024 00:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:49:17.241716
- Title: Autoregressive + Chain of Thought (CoT) $\simeq$ Recurrent: Recurrence's Role in Language Models and a Revist of Recurrent Transformer
- Title(参考訳): Autoregressive + Chain of Thought (CoT) $\simeq$ Recurrent: Recurrenceの言語モデルにおける役割とリカレントトランスフォーマーの再検討
- Authors: Xiang Zhang, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan,
- Abstract要約: 言語モデルにおける繰り返し構造が推論能力に与える影響について検討する。
線形変換器やRWKVのようなモデルにおける重要な理論的限界を同定する。
- 参考スコア(独自算出の注目度): 29.970200877158764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture excels in a variety of language modeling tasks, outperforming traditional neural architectures such as RNN and LSTM. This is partially due to its elimination of recurrent connections, which allows for parallel training and a smoother flow of gradients. However, this move away from recurrent structures places the Transformer model at the lower end of Chomsky's computational hierarchy, imposing limitations on its computational abilities. Consequently, even advanced Transformer-based models face considerable difficulties in tasks like counting, string reversal, bracket pairing, and multiplication. These tasks, though seemingly elementary, require a level of computational complexity that exceeds the capabilities of the Transformer architecture. Concurrently, the emergence of ``Chain of Thought" (CoT) prompting has enabled Transformer-based language models to tackle tasks that were previously impossible or poorly executed. Despite some previous research primarily interpreting CoT from a psychological perspective, a comprehensive understanding of \textit{why} CoT proves so effective in the reasoning process remains elusive. In this work, we thoroughly investigate the influence of recurrent structures in language models on their reasoning abilities, shedding light on how the CoT approach can mimic recurrent computation and act as a bridge between autoregression and recurrence. It is this approximated recurrence that notably improves the model's performance and computational capacity. Moreover, we revisit recent recurrent-based Transformer model designs, focusing on their computational abilities through our proposed concept of ``recurrence-completeness" and identify key theoretical limitations in models like Linear Transformer and RWKV. Through this, we aim to provide insight into the neural model architectures and prompt better model design.
- Abstract(参考訳): Transformerアーキテクチャはさまざまな言語モデリングタスクに優れ、RNNやLSTMといった従来のニューラルネットワークアーキテクチャよりも優れています。
これは部分的には、並列トレーニングと勾配のスムーズな流れを可能にする再帰接続の除去によるものである。
しかし、これは再帰構造から離れて、トランスフォーマーモデルをチョムスキーの計算階層の下端に配置し、計算能力に制限を与える。
その結果、高度なTransformerベースのモデルでさえ、カウント、文字列の反転、ブラケットのペアリング、乗算といったタスクでかなりの困難に直面している。
これらのタスクは、一見初等的なように見えるが、Transformerアーキテクチャの能力を超える計算複雑性のレベルを必要とする。
同時に、 ‘`Chain of Thought' (CoT) プロンプトの出現により、トランスフォーマーベースの言語モデルが、以前は不可能だったり、実行が不十分だったタスクに対処できるようになった。
心理学的観点からCoTを主に解釈する以前の研究にもかかわらず、‘textit{why} CoT’の包括的な理解は推論過程において非常に効果的であることが証明されている。
本研究では,言語モデルにおける繰り返し構造が推論能力に与える影響を徹底的に検討し,CoT手法が繰り返し計算を模倣し,自己回帰と再帰の橋渡しを行う方法について光を当てる。
この近似された再現性は、特にモデルの性能と計算能力を改善する。
さらに,近年のリカレントベーストランスフォーマーモデルの設計を再検討し,提案した「再帰完全性」の概念を通した計算能力に着目し,線形トランスフォーマーやRWKVのようなモデルにおける重要な理論的制約を特定する。
これを通じて、ニューラルモデルアーキテクチャに関する洞察を提供し、より良いモデル設計を促進することを目指している。
関連論文リスト
- Retentive Neural Quantum States: Efficient Ansätze for Ab Initio Quantum Chemistry [10.423935999935315]
本稿では,量子化学における電子基底状態問題の解法として,RetNet(retentive Network)の応用について検討する。
RetNetは、トレーニング中にデータを並列に処理し、推論中に繰り返し処理することで、この時間の複雑さのボトルネックを克服していることを示す。
論文 参考訳(メタデータ) (2024-11-06T13:24:34Z) - Does Transformer Interpretability Transfer to RNNs? [0.6437284704257459]
近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。
本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
論文 参考訳(メタデータ) (2024-04-09T02:59:17Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Composable Function-preserving Expansions for Transformer Architectures [2.579908688646812]
最先端のニューラルネットワークのトレーニングには、計算と時間の面で高いコストが必要となる。
本稿では,変圧器ベースニューラルネットワークのサイズを漸進的に増加させるために,構成可能な6つの変換を提案する。
論文 参考訳(メタデータ) (2023-08-11T12:27:22Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。