論文の概要: Recurrent Transformers with Dynamic Halt
- arxiv url: http://arxiv.org/abs/2402.00976v1
- Date: Thu, 1 Feb 2024 19:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:51:30.540436
- Title: Recurrent Transformers with Dynamic Halt
- Title(参考訳): 動的停止を伴うリカレント変圧器
- Authors: Jishnu Ray Chowdhury, Cornelia Caragea
- Abstract要約: 本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
本稿では,これらの手法を拡張し,組み合わせるための新しい手法を提案し,検討する。
- 参考スコア(独自算出の注目度): 76.62673276574668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the inductive biases of two major approaches to
augmenting Transformers with a recurrent mechanism - (1) the approach of
incorporating a depth-wise recurrence similar to Universal Transformers; and
(2) the approach of incorporating a chunk-wise temporal recurrence like
Temporal Latent Bottleneck. Furthermore, we propose and investigate novel ways
to extend and combine the above methods - for example, we propose a global
mean-based dynamic halting mechanism for Universal Transformer and an
augmentation of Temporal Latent Bottleneck with elements from Universal
Transformer. We compare the models and probe their inductive biases in several
diagnostic tasks such as Long Range Arena (LRA), flip-flop language modeling,
ListOps, and Logical Inference.
- Abstract(参考訳): 本稿では,(1)普遍的変圧器に類似した深さ方向の繰り返しを組み込むアプローチ,(2)時間的潜時ボトルネックのようなチャンク方向の時間的反復を組み込むアプローチという2つの主要な変圧器強化手法の帰納的バイアスについて検討する。
さらに,上記手法を拡張・組み合わせた新しい手法を提案し,検討する。例えば,ユニバーサルトランスフォーマのグローバル平均ベース動的停止機構と,ユニバーサルトランスフォーマの要素による時間的潜在ボトルネックの強化を提案する。
モデルを比較し,Long Range Arena(LRA)やフリップフロップ言語モデリング,ListOps,Logical Inferenceなど,いくつかの診断タスクにおける帰納バイアスを探索する。
関連論文リスト
- Understanding the Expressive Power and Mechanisms of Transformer for
Sequence Modeling [12.105446461064489]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - Are Transformers with One Layer Self-Attention Using Low-Rank Weight
Matrices Universal Approximators? [37.820617032391404]
低ランクの重み付き自己注意層が入力シーケンス全体のコンテキストを完全にキャプチャする能力を持っていることを示す。
単層および単頭トランスフォーマーは、有限サンプルに対する記憶能力を持ち、2つのフィードフォワードニューラルネットワークを持つ1つの自己アテンション層からなるトランスフォーマーは、コンパクトドメイン上の連続置換同変関数の普遍近似器である。
論文 参考訳(メタデータ) (2023-07-26T08:07:37Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - Driven-dissipative topological phases in parametric resonator arrays [62.997667081978825]
トポロジカルアンプリフィケーションの2つのフェーズは, 方向輸送と指数的ゲインの双方で, サイト数とともに増加し, そのうちの1つはスクイーズを特徴とする。
異なる位相の障害に対するレジリエンスと、その安定性、利得、雑音-信号比を特徴付ける。
実験的な実装を最先端技術で論じる。
論文 参考訳(メタデータ) (2022-07-27T18:00:05Z) - Transformers from an Optimization Perspective [24.78739299952529]
本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
論文 参考訳(メタデータ) (2022-05-27T10:45:15Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。