論文の概要: Implicit Language Models are RNNs: Balancing Parallelization and Expressivity
- arxiv url: http://arxiv.org/abs/2502.07827v1
- Date: Mon, 10 Feb 2025 19:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:54.533442
- Title: Implicit Language Models are RNNs: Balancing Parallelization and Expressivity
- Title(参考訳): 暗黙の言語モデルはRNNである:並列化と表現性のバランスをとる
- Authors: Mark Schöne, Babak Rahmani, Heiner Kremer, Fabian Falck, Hitesh Ballani, Jannes Gladrow,
- Abstract要約: 状態空間モデル(SSM)とトランスフォーマーが言語モデリングのランドスケープを支配している。
固定点に収束するまで変換を繰り返す暗黙のSSMを提案する。
提案手法は, 正規言語における状態追跡能力に優れ, トランスフォーマーやSSMよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 4.332158627306896
- License:
- Abstract: State-space models (SSMs) and transformers dominate the language modeling landscape. However, they are constrained to a lower computational complexity than classical recurrent neural networks (RNNs), limiting their expressivity. In contrast, RNNs lack parallelization during training, raising fundamental questions about the trade off between parallelization and expressivity. We propose implicit SSMs, which iterate a transformation until convergence to a fixed point. Theoretically, we show that implicit SSMs implement the non-linear state-transitions of RNNs. Empirically, we find that only approximate fixed-point convergence suffices, enabling the design of a scalable training curriculum that largely retains parallelization, with full convergence required only for a small subset of tokens. Our approach demonstrates superior state-tracking capabilities on regular languages, surpassing transformers and SSMs. We further scale implicit SSMs to natural language reasoning tasks and pretraining of large-scale language models up to 1.3B parameters on 207B tokens - representing, to our knowledge, the largest implicit model trained to date. Notably, our implicit models outperform their explicit counterparts on standard benchmarks.
- Abstract(参考訳): 状態空間モデル(SSM)とトランスフォーマーが言語モデリングのランドスケープを支配している。
しかし、それらは古典的リカレントニューラルネットワーク(RNN)よりも計算の複雑さが低く、表現性を制限している。
対照的に、RNNは訓練中に並列化を欠いているため、並列化と表現性の間のトレードオフに関する根本的な疑問が提起されている。
固定点に収束するまで変換を繰り返す暗黙のSSMを提案する。
理論的には、暗黙のSSMがRNNの非線形状態遷移を実装していることを示す。
経験的に、固定点収束のみを近似すれば、並列化をほとんど維持するスケーラブルなトレーニングカリキュラムを設計でき、トークンの小さなサブセットにのみ完全な収束が要求される。
提案手法は, 正規言語における状態追跡能力に優れ, トランスフォーマーやSSMよりも優れていることを示す。
さらに、暗黙のSSMを自然言語推論タスクにスケールし、207Bトークン上の1.3Bパラメータまでの大規模言語モデルの事前トレーニングを行います。
特に、私たちの暗黙のモデルは、標準ベンチマークで明示的な結果よりも優れています。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Mastering Symbolic Operations: Augmenting Language Models with Compiled
Neural Networks [48.14324895100478]
ニューラルアーキテクチャ」は、コンパイルされたニューラルネットワーク(CoNN)を標準変換器に統合する。
CoNNは、人工的に生成された注意重みを通してルールを明示的にエンコードするように設計されたニューラルネットワークモジュールである。
実験は,シンボル操作における長さ一般化,効率,解釈可能性の観点から,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:50:07Z) - SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文 参考訳(メタデータ) (2023-02-27T16:43:04Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。