論文の概要: Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing
Mechanisms in Sequence Learning
- arxiv url: http://arxiv.org/abs/2205.14794v1
- Date: Mon, 30 May 2022 00:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 10:01:59.886683
- Title: Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing
Mechanisms in Sequence Learning
- Title(参考訳): 一時潜伏ボトルネック:シークエンス学習における高速・低速処理機構の合成
- Authors: Aniket Didolkar, Kshitij Gupta, Anirudh Goyal, Alex Lamb, Nan Rosemary
Ke, Yoshua Bengio
- Abstract要約: リカレントニューラルネットワークは、時間的に圧縮された表現の学習に対して強い誘導バイアスを持つ。
変換器は時間的に圧縮された表現を学習する際の帰納的バイアスがほとんどない。
- 参考スコア(独自算出の注目度): 85.95599675484341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent neural networks have a strong inductive bias towards learning
temporally compressed representations, as the entire history of a sequence is
represented by a single vector. By contrast, Transformers have little inductive
bias towards learning temporally compressed representations, as they allow for
attention over all previously computed elements in a sequence. Having a more
compressed representation of a sequence may be beneficial for generalization,
as a high-level representation may be more easily re-used and re-purposed and
will contain fewer irrelevant details. At the same time, excessive compression
of representations comes at the cost of expressiveness. We propose a solution
which divides computation into two streams. A slow stream that is recurrent in
nature aims to learn a specialized and compressed representation, by forcing
chunks of $K$ time steps into a single representation which is divided into
multiple vectors. At the same time, a fast stream is parameterized as a
Transformer to process chunks consisting of $K$ time-steps conditioned on the
information in the slow-stream. In the proposed approach we hope to gain the
expressiveness of the Transformer, while encouraging better compression and
structuring of representations in the slow stream. We show the benefits of the
proposed method in terms of improved sample efficiency and generalization
performance as compared to various competitive baselines for visual perception
and sequential decision making tasks.
- Abstract(参考訳): リカレントニューラルネットワークは、シーケンスの履歴全体が単一のベクトルで表現されるため、時間圧縮表現を学ぶための強い帰納的バイアスを持つ。
対照的に、トランスフォーマーは、時間的に圧縮された表現を学ぶための帰納的バイアスをほとんど持たない。
シーケンスのより圧縮された表現を持つことは一般化に有用であり、高レベル表現はより簡単に再使用され、再利用され、無関係な詳細を含まない。
同時に、表現の過剰な圧縮は表現力の犠牲となる。
計算を2つのストリームに分割する手法を提案する。
自然に繰り返される遅いストリームは、k$の時間ステップのチャンクを複数のベクトルに分割された単一の表現に強制することによって、特殊で圧縮された表現を学ぶことを目的としている。
同時に、高速ストリームをTransformerとしてパラメータ化して、スローストリームの情報に条件付けされた$K$タイムステップからなるチャンクを処理する。
提案手法では,低速ストリームにおける表現の圧縮と構造化を促進しつつ,トランスフォーマの表現力の向上を期待する。
提案手法の利点は,視覚知覚および逐次意思決定タスクにおける様々な競争ベースラインと比較して,サンプル効率と一般化性能の改善の観点から示す。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - Convolutions and More as Einsum: A Tensor Network Perspective with Advances for Second-Order Methods [2.8645507575980074]
我々はそれらをテンソルネットワーク(TN)として見ることで畳み込みを単純化する
TN はダイアグラムを描画し、微分のような関数変換を実行するようにそれらを操作し、それらを固有値で効率的に評価することで、基礎となるテンソル乗法を推論することができる。
我々のTN実装は、標準実装のメモリオーバーヘッドをなくしながら、最大4.5倍のKFAC変異を加速し、近似バックプロパゲーションのための新しいハードウェア効率の良いドロップアウトを可能にする。
論文 参考訳(メタデータ) (2023-07-05T13:19:41Z) - TAPIR: Learning Adaptive Revision for Incremental Natural Language
Understanding with a Two-Pass Model [14.846377138993645]
インクリメンタル処理のための最近のニューラルネットワークベースのアプローチは、主にRNNまたはTransformerを使用する。
より長い入力プレフィックスを繰り返し通過する再起動/インクリメンタルインターフェースは、部分的な出力を得るために使用でき、更新する機能を提供する。
本稿では、AdaPtIve Revision(TAPIR)の2パスモデルを提案し、適応的な修正ポリシーを学ぶための漸進的な監視信号を得る方法を提案する。
論文 参考訳(メタデータ) (2023-05-18T09:58:19Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。