論文の概要: Recurrent Transformers with Dynamic Halt
- arxiv url: http://arxiv.org/abs/2402.00976v1
- Date: Thu, 1 Feb 2024 19:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:51:30.540436
- Title: Recurrent Transformers with Dynamic Halt
- Title(参考訳): 動的停止を伴うリカレント変圧器
- Authors: Jishnu Ray Chowdhury, Cornelia Caragea
- Abstract要約: 本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
本稿では,これらの手法を拡張し,組み合わせるための新しい手法を提案し,検討する。
- 参考スコア(独自算出の注目度): 76.62673276574668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the inductive biases of two major approaches to
augmenting Transformers with a recurrent mechanism - (1) the approach of
incorporating a depth-wise recurrence similar to Universal Transformers; and
(2) the approach of incorporating a chunk-wise temporal recurrence like
Temporal Latent Bottleneck. Furthermore, we propose and investigate novel ways
to extend and combine the above methods - for example, we propose a global
mean-based dynamic halting mechanism for Universal Transformer and an
augmentation of Temporal Latent Bottleneck with elements from Universal
Transformer. We compare the models and probe their inductive biases in several
diagnostic tasks such as Long Range Arena (LRA), flip-flop language modeling,
ListOps, and Logical Inference.
- Abstract(参考訳): 本稿では,(1)普遍的変圧器に類似した深さ方向の繰り返しを組み込むアプローチ,(2)時間的潜時ボトルネックのようなチャンク方向の時間的反復を組み込むアプローチという2つの主要な変圧器強化手法の帰納的バイアスについて検討する。
さらに,上記手法を拡張・組み合わせた新しい手法を提案し,検討する。例えば,ユニバーサルトランスフォーマのグローバル平均ベース動的停止機構と,ユニバーサルトランスフォーマの要素による時間的潜在ボトルネックの強化を提案する。
モデルを比較し,Long Range Arena(LRA)やフリップフロップ言語モデリング,ListOps,Logical Inferenceなど,いくつかの診断タスクにおける帰納バイアスを探索する。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。
モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。
本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。