論文の概要: Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer
- arxiv url: http://arxiv.org/abs/2409.09239v2
- Date: Wed, 18 Sep 2024 08:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 12:19:06.787938
- Title: Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer
- Title(参考訳): Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Recurrent Transformer Revisit of Recurrent Transformer
- Authors: Xiang Zhang, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan,
- Abstract要約: ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。
我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
- 参考スコア(独自算出の注目度): 29.970200877158764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture excels in a variety of language modeling tasks, outperforming traditional neural architectures such as RNN and LSTM. This is partially due to its elimination of recurrent connections, which allows for parallel training and a smoother flow of gradients. However, this move away from recurrent structures places the Transformer model at the lower end of Chomsky's computational hierarchy, imposing limitations on its computational abilities. Consequently, even advanced Transformer-based models face considerable difficulties in tasks like counting, string reversal, and multiplication. These tasks, though seemingly elementary, require a level of computational complexity that exceeds the capabilities of the Transformer architecture. Concurrently, the emergence of ``Chain of Thought" (CoT) prompting has enabled Transformer-based language models to tackle tasks that were previously impossible or poorly executed. In this work, we thoroughly investigate the influence of recurrent structures in neural models on their reasoning abilities and computability, contrasting the role autoregression plays in the neural models' computational power. We then shed light on how the CoT approach can mimic recurrent computation and act as a bridge between autoregression and recurrence in the context of language models. It is this approximated recurrence that notably improves the model's performance and computational capacity. Moreover, we revisit recent recurrent-based Transformer model designs, focusing on their computational abilities through our proposed concept of ``recurrence-completeness" and identify key theoretical limitations in models like Linear Transformer and RWKV. Through this, we aim to provide insight into the neural model architectures and prompt better model design.
- Abstract(参考訳): Transformerアーキテクチャはさまざまな言語モデリングタスクに優れ、RNNやLSTMといった従来のニューラルネットワークアーキテクチャよりも優れています。
これは部分的には、並列トレーニングと勾配のスムーズな流れを可能にする再帰接続の除去によるものである。
しかし、これは再帰構造から離れて、トランスフォーマーモデルをチョムスキーの計算階層の下端に配置し、計算能力に制限を与える。
その結果、高度なTransformerベースのモデルでさえ、カウント、文字列反転、乗算といったタスクでかなりの困難に直面している。
これらのタスクは、一見初等的なように見えるが、Transformerアーキテクチャの能力を超える計算複雑性のレベルを必要とする。
同時に、"Chain of Thought"(CoT)のプロンプトの出現により、トランスフォーマーベースの言語モデルでは、以前は不可能あるいは不十分であったタスクに対処することが可能になった。本研究では、ニューラルネットワークの推論能力と計算可能性に対する、ニューラルネットワークにおけるリカレント構造の影響を徹底的に調査し、ニューラルネットワークの計算能力において自己回帰が果たす役割を対比する。そして、CoTアプローチがリカレントな計算を模倣し、言語モデルのコンテキストにおける自己回帰と再帰の間の橋渡しとして機能する方法について光を当てた。この近似反復は、モデルの性能と計算能力を特に向上する。さらに、最近のリカレントベースのトランスフォーマーモデルの設計は、我々の「完全性」の概念によって、その計算能力に焦点を絞ったものである。
これを通じて、ニューラルモデルアーキテクチャに関する洞察を提供し、より良いモデル設計を促進することを目指している。
関連論文リスト
- Retentive Neural Quantum States: Efficient Ansätze for Ab Initio Quantum Chemistry [10.423935999935315]
本稿では,量子化学における電子基底状態問題の解法として,RetNet(retentive Network)の応用について検討する。
RetNetは、トレーニング中にデータを並列に処理し、推論中に繰り返し処理することで、この時間の複雑さのボトルネックを克服していることを示す。
論文 参考訳(メタデータ) (2024-11-06T13:24:34Z) - Does Transformer Interpretability Transfer to RNNs? [0.6437284704257459]
近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。
本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
論文 参考訳(メタデータ) (2024-04-09T02:59:17Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Composable Function-preserving Expansions for Transformer Architectures [2.579908688646812]
最先端のニューラルネットワークのトレーニングには、計算と時間の面で高いコストが必要となる。
本稿では,変圧器ベースニューラルネットワークのサイズを漸進的に増加させるために,構成可能な6つの変換を提案する。
論文 参考訳(メタデータ) (2023-08-11T12:27:22Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。