論文の概要: H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for
Sequences
- arxiv url: http://arxiv.org/abs/2107.11906v1
- Date: Sun, 25 Jul 2021 23:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 23:47:32.942642
- Title: H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for
Sequences
- Title(参考訳): H-Transformer-1D:高速1次元階層型シーケンス注意
- Authors: Zhenhai Zhu and Radu Soricut
- Abstract要約: 本稿では,トランスフォーマーアーキテクチャにおける注目度を計算するための効率的な階層的手法について述べる。
提案手法は,Long Range Arenaベンチマークにおいて,平均で+6点以上の代替準四進法よりも優れている。
また、One-Billion Wordデータセットに新しいSOTAテストパープレキシティを設定し、5倍のモデルパラメータを前回のベストなTransformerベースのモデルと比較する。
- 参考スコア(独自算出の注目度): 16.59989033959959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe an efficient hierarchical method to compute attention in the
Transformer architecture. The proposed attention mechanism exploits a matrix
structure similar to the Hierarchical Matrix (H-Matrix) developed by the
numerical analysis community, and has linear run time and memory complexity. We
perform extensive experiments to show that the inductive bias embodied by our
hierarchical attention is effective in capturing the hierarchical structure in
the sequences typical for natural language and vision tasks. Our method is
superior to alternative sub-quadratic proposals by over +6 points on average on
the Long Range Arena benchmark. It also sets a new SOTA test perplexity on
One-Billion Word dataset with 5x fewer model parameters than that of the
previous-best Transformer-based models.
- Abstract(参考訳): 本稿では,トランスフォーマーアーキテクチャにおける注意力を計算するための効率的な階層的手法について述べる。
提案手法は,数値解析コミュニティが開発した階層行列(h行列)に似た行列構造を利用し,線形実行時間とメモリ複雑性を有する。
階層的注意によって具現化された帰納的バイアスが,自然言語や視覚タスクに典型的なシーケンスの階層構造を捉える上で有効であることを示すために,広範な実験を行った。
提案手法は,arenaベンチマークにおいて,平均で+6点以上の精度で代替サブクアドラティック提案法よりも優れている。
また、One-Billion Wordデータセットに新しいSOTAテストパープレキシティを設定し、5倍のモデルパラメータを前回のベストなTransformerベースのモデルと比較する。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks [32.33355192614434]
我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
論文 参考訳(メタデータ) (2023-10-26T14:43:07Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A)
行列を低主行列とスパース主行列の和に分解する。
論文 参考訳(メタデータ) (2023-07-12T03:48:26Z) - Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [13.082805815235975]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文 参考訳(メタデータ) (2023-07-02T13:59:47Z) - Classification of BCI-EEG based on augmented covariance matrix [0.0]
本稿では,運動画像分類の改善を目的とした自己回帰モデルから抽出した拡張共分散に基づく新しいフレームワークを提案する。
私たちはMOABBフレームワークを使って、いくつかのデータセットといくつかの主題でアプローチを検証します。
論文 参考訳(メタデータ) (2023-02-09T09:04:25Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - ORCHARD: A Benchmark For Measuring Systematic Generalization of
Multi-Hierarchical Reasoning [8.004425059996963]
本稿では,Transformer と LSTM のモデルが体系的一般化において驚くほど失敗することを示す。
また、階層間の参照の増加に伴い、Transformerはランダムにしか動作しないことを示す。
論文 参考訳(メタデータ) (2021-11-28T03:11:37Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - Hyperparameter optimization with REINFORCE and Transformers [2.1404235519012076]
強化学習はニューラルアーキテクチャサーチ(NAS)の有望な結果を得た
ポリシーネットワークをモデル化するために,単純化されたTransformerブロックを用いることで,その性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-01T13:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。