論文の概要: Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer
- arxiv url: http://arxiv.org/abs/2409.09239v2
- Date: Wed, 18 Sep 2024 08:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 12:19:06.787938
- Title: Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer
- Title(参考訳): Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Recurrent Transformer Revisit of Recurrent Transformer
- Authors: Xiang Zhang, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan,
- Abstract要約: ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。
我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
- 参考スコア(独自算出の注目度): 29.970200877158764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture excels in a variety of language modeling tasks, outperforming traditional neural architectures such as RNN and LSTM. This is partially due to its elimination of recurrent connections, which allows for parallel training and a smoother flow of gradients. However, this move away from recurrent structures places the Transformer model at the lower end of Chomsky's computational hierarchy, imposing limitations on its computational abilities. Consequently, even advanced Transformer-based models face considerable difficulties in tasks like counting, string reversal, and multiplication. These tasks, though seemingly elementary, require a level of computational complexity that exceeds the capabilities of the Transformer architecture. Concurrently, the emergence of ``Chain of Thought" (CoT) prompting has enabled Transformer-based language models to tackle tasks that were previously impossible or poorly executed. In this work, we thoroughly investigate the influence of recurrent structures in neural models on their reasoning abilities and computability, contrasting the role autoregression plays in the neural models' computational power. We then shed light on how the CoT approach can mimic recurrent computation and act as a bridge between autoregression and recurrence in the context of language models. It is this approximated recurrence that notably improves the model's performance and computational capacity. Moreover, we revisit recent recurrent-based Transformer model designs, focusing on their computational abilities through our proposed concept of ``recurrence-completeness" and identify key theoretical limitations in models like Linear Transformer and RWKV. Through this, we aim to provide insight into the neural model architectures and prompt better model design.
- Abstract(参考訳): Transformerアーキテクチャはさまざまな言語モデリングタスクに優れ、RNNやLSTMといった従来のニューラルネットワークアーキテクチャよりも優れています。
これは部分的には、並列トレーニングと勾配のスムーズな流れを可能にする再帰接続の除去によるものである。
しかし、これは再帰構造から離れて、トランスフォーマーモデルをチョムスキーの計算階層の下端に配置し、計算能力に制限を与える。
その結果、高度なTransformerベースのモデルでさえ、カウント、文字列反転、乗算といったタスクでかなりの困難に直面している。
これらのタスクは、一見初等的なように見えるが、Transformerアーキテクチャの能力を超える計算複雑性のレベルを必要とする。
同時に、"Chain of Thought"(CoT)のプロンプトの出現により、トランスフォーマーベースの言語モデルでは、以前は不可能あるいは不十分であったタスクに対処することが可能になった。本研究では、ニューラルネットワークの推論能力と計算可能性に対する、ニューラルネットワークにおけるリカレント構造の影響を徹底的に調査し、ニューラルネットワークの計算能力において自己回帰が果たす役割を対比する。そして、CoTアプローチがリカレントな計算を模倣し、言語モデルのコンテキストにおける自己回帰と再帰の間の橋渡しとして機能する方法について光を当てた。この近似反復は、モデルの性能と計算能力を特に向上する。さらに、最近のリカレントベースのトランスフォーマーモデルの設計は、我々の「完全性」の概念によって、その計算能力に焦点を絞ったものである。
これを通じて、ニューラルモデルアーキテクチャに関する洞察を提供し、より良いモデル設計を促進することを目指している。
関連論文リスト
- Transformers meet Neural Algorithmic Reasoners [16.5785372289558]
我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-13T16:42:06Z) - Towards Understanding How Transformer Perform Multi-step Reasoning with Matching Operation [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
構築したデータセットの多段階推論においてTransformerが使用するマッチング機構について検討する。
本稿では,この現象に基づくモデル推論能力の上限に関する予想を提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Composable Function-preserving Expansions for Transformer Architectures [2.579908688646812]
最先端のニューラルネットワークのトレーニングには、計算と時間の面で高いコストが必要となる。
本稿では,変圧器ベースニューラルネットワークのサイズを漸進的に増加させるために,構成可能な6つの変換を提案する。
論文 参考訳(メタデータ) (2023-08-11T12:27:22Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。