論文の概要: Investigating Recurrent Transformers with Dynamic Halt
- arxiv url: http://arxiv.org/abs/2402.00976v3
- Date: Tue, 3 Sep 2024 02:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 19:43:36.913466
- Title: Investigating Recurrent Transformers with Dynamic Halt
- Title(参考訳): 動的ハルトを用いたリカレント変圧器の検討
- Authors: Jishnu Ray Chowdhury, Cornelia Caragea,
- Abstract要約: 本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
- 参考スコア(独自算出の注目度): 64.862738244735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we comprehensively study the inductive biases of two major approaches to augmenting Transformers with a recurrent mechanism: (1) the approach of incorporating a depth-wise recurrence similar to Universal Transformers; and (2) the approach of incorporating a chunk-wise temporal recurrence like Temporal Latent Bottleneck. Furthermore, we propose and investigate novel ways to extend and combine the above methods - for example, we propose a global mean-based dynamic halting mechanism for Universal Transformers and an augmentation of Temporal Latent Bottleneck with elements from Universal Transformer. We compare the models and probe their inductive biases in several diagnostic tasks, such as Long Range Arena (LRA), flip-flop language modeling, ListOps, and Logical Inference. The code is released in: https://github.com/JRC1995/InvestigatingRecurrentTransformers/tree/main
- Abstract(参考訳): 本稿では,(1)ユニバーサルトランスフォーマーに類似した深度ワイド・リカレンスを組み込むアプローチ,(2)テンポラル・ラテント・ボトルネックのようなチャンクワイド・テンポラル・リカレンスを組み込むアプローチ,の2つの主要なリカレント・メカニズムによるインダクティブ・バイアスを包括的に研究する。
さらに, 上記の手法を拡張し, 組み合わせる新しい手法を提案する。例えば, ユニバーサルトランスフォーマーのグローバル平均値に基づく動的停止機構と, テンポラルラテントボトルネックをユニバーサルトランスフォーマーの要素で拡張する機構を提案する。
モデルを比較し,Long Range Arena(LRA)やフリップフロップ言語モデリング,ListOps,Logical Inferenceなど,いくつかの診断タスクにおける帰納バイアスを探索する。
https://github.com/JRC 1995/InvestigatingRecurrentTransformers/tree/main
関連論文リスト
- Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。
モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。
本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves [69.9104427437916]
マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。
これらの複雑な装置は、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。
本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討する。
論文 参考訳(メタデータ) (2024-04-17T02:04:10Z) - Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - Stochastic parameter optimization analysis of dynamical quantum critical phenomena in long-range transverse-field Ising chain [0.0]
一次元長次元逆場イジングモデルの量子相転移について検討する。
シミュレーションでは, 臨界点と普遍性に関する事前知識がなくても, サンプリング対象のパラメータを自動的に決定する。
後者の 2 つの普遍性境界は、力学指数に基づいて $sigma = 7/4$ と決定できる。
論文 参考訳(メタデータ) (2023-05-23T14:46:16Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - Driven-dissipative topological phases in parametric resonator arrays [62.997667081978825]
トポロジカルアンプリフィケーションの2つのフェーズは, 方向輸送と指数的ゲインの双方で, サイト数とともに増加し, そのうちの1つはスクイーズを特徴とする。
異なる位相の障害に対するレジリエンスと、その安定性、利得、雑音-信号比を特徴付ける。
実験的な実装を最先端技術で論じる。
論文 参考訳(メタデータ) (2022-07-27T18:00:05Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。