Fugu-MT 論文翻訳(概要): Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer

論文の概要: Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer

arxiv url: http://arxiv.org/abs/2409.09239v2
Date: Wed, 18 Sep 2024 08:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 12:19:06.787938
Title: Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer
Title（参考訳）: Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Recurrent Transformer Revisit of Recurrent Transformer
Authors: Xiang Zhang, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan,
Abstract要約: ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
参考スコア（独自算出の注目度）: 29.970200877158764
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Transformer architecture excels in a variety of language modeling tasks, outperforming traditional neural architectures such as RNN and LSTM. This is partially due to its elimination of recurrent connections, which allows for parallel training and a smoother flow of gradients. However, this move away from recurrent structures places the Transformer model at the lower end of Chomsky's computational hierarchy, imposing limitations on its computational abilities. Consequently, even advanced Transformer-based models face considerable difficulties in tasks like counting, string reversal, and multiplication. These tasks, though seemingly elementary, require a level of computational complexity that exceeds the capabilities of the Transformer architecture. Concurrently, the emergence of ``Chain of Thought" (CoT) prompting has enabled Transformer-based language models to tackle tasks that were previously impossible or poorly executed. In this work, we thoroughly investigate the influence of recurrent structures in neural models on their reasoning abilities and computability, contrasting the role autoregression plays in the neural models' computational power. We then shed light on how the CoT approach can mimic recurrent computation and act as a bridge between autoregression and recurrence in the context of language models. It is this approximated recurrence that notably improves the model's performance and computational capacity. Moreover, we revisit recent recurrent-based Transformer model designs, focusing on their computational abilities through our proposed concept of ``recurrence-completeness" and identify key theoretical limitations in models like Linear Transformer and RWKV. Through this, we aim to provide insight into the neural model architectures and prompt better model design.
Abstract（参考訳）: Transformerアーキテクチャはさまざまな言語モデリングタスクに優れ、RNNやLSTMといった従来のニューラルネットワークアーキテクチャよりも優れています。これは部分的には、並列トレーニングと勾配のスムーズな流れを可能にする再帰接続の除去によるものである。しかし、これは再帰構造から離れて、トランスフォーマーモデルをチョムスキーの計算階層の下端に配置し、計算能力に制限を与える。その結果、高度なTransformerベースのモデルでさえ、カウント、文字列反転、乗算といったタスクでかなりの困難に直面している。これらのタスクは、一見初等的なように見えるが、Transformerアーキテクチャの能力を超える計算複雑性のレベルを必要とする。同時に、"Chain of Thought"(CoT)のプロンプトの出現により、トランスフォーマーベースの言語モデルでは、以前は不可能あるいは不十分であったタスクに対処することが可能になった。本研究では、ニューラルネットワークの推論能力と計算可能性に対する、ニューラルネットワークにおけるリカレント構造の影響を徹底的に調査し、ニューラルネットワークの計算能力において自己回帰が果たす役割を対比する。そして、CoTアプローチがリカレントな計算を模倣し、言語モデルのコンテキストにおける自己回帰と再帰の間の橋渡しとして機能する方法について光を当てた。この近似反復は、モデルの性能と計算能力を特に向上する。さらに、最近のリカレントベースのトランスフォーマーモデルの設計は、我々の「完全性」の概念によって、その計算能力に焦点を絞ったものである。これを通じて、ニューラルモデルアーキテクチャに関する洞察を提供し、より良いモデル設計を促進することを目指している。

関連論文リスト

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Resona: Improving Context Copying in Linear Recurrence Models with Retrieval [24.84741364872597]
本稿では,リニアリカレントモデルとリカレントモデルを組み合わせたシンプルでスケーラブルなフレームワークである__Resona__を紹介する。様々な線形リカレントモデルの実験は、様々な合成および実世界の自然言語タスクにおいて顕著な性能向上を示す。
論文参考訳（メタデータ） (2025-03-28T23:43:33Z)
Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文参考訳（メタデータ） (2025-02-16T23:13:55Z)
Enhanced Computationally Efficient Long LoRA Inspired Perceiver Architectures for Auto-Regressive Language Modeling [2.9228447484533695]
Transformer アーキテクチャは自然言語処理分野に革命をもたらし、Large Language Models (LLM) のバックボーンとなっている。 Transformerアーキテクチャの課題の1つは、長いシーケンス長の効率的な処理を禁止する注意機構の二次的な複雑さである。この点において重要な研究の1つは、計算の複雑さを減らしながら優れた性能を示したPerceiverクラスのアーキテクチャである。
論文参考訳（メタデータ） (2024-12-08T23:41:38Z)
Retentive Neural Quantum States: Efficient Ansätze for Ab Initio Quantum Chemistry [10.423935999935315]
本稿では,量子化学における電子基底状態問題の解法として,RetNet(retentive Network)の応用について検討する。 RetNetは、トレーニング中にデータを並列に処理し、推論中に繰り返し処理することで、この時間の複雑さのボトルネックを克服していることを示す。
論文参考訳（メタデータ） (2024-11-06T13:24:34Z)
Does Transformer Interpretability Transfer to RNNs? [0.6437284704257459]
近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
論文参考訳（メタデータ） (2024-04-09T02:59:17Z)
Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文参考訳（メタデータ） (2023-09-11T22:42:50Z)
Composable Function-preserving Expansions for Transformer Architectures [2.579908688646812]
最先端のニューラルネットワークのトレーニングには、計算と時間の面で高いコストが必要となる。本稿では,変圧器ベースニューラルネットワークのサイズを漸進的に増加させるために,構成可能な6つの変換を提案する。
論文参考訳（メタデータ） (2023-08-11T12:27:22Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
A Recursively Recurrent Neural Network (R2N2) Architecture for Learning Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文参考訳（メタデータ） (2022-11-22T16:30:33Z)
Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文参考訳（メタデータ） (2021-06-02T17:53:39Z)
Enriching Non-Autoregressive Transformer with Syntactic and SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文参考訳（メタデータ） (2021-01-22T04:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。