論文の概要: Multi Resolution Analysis (MRA) for Approximate Self-Attention
- arxiv url: http://arxiv.org/abs/2207.10284v1
- Date: Thu, 21 Jul 2022 03:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:31:24.481850
- Title: Multi Resolution Analysis (MRA) for Approximate Self-Attention
- Title(参考訳): 近似自己認識のための多重分解能解析(MRA)
- Authors: Zhanpeng Zeng, Sourav Pal, Jeffery Kline, Glenn M Fung, Vikas Singh
- Abstract要約: トランスフォーマーをより効率的に訓練し展開するための最近の取り組みは、自己注意行列を近似する多くの戦略を特定している。
本稿では、ウェーブレットのような古典的マルチレゾリューション解析(MRA)の概念を再考する。
ハードウェアと実装の課題から得られた経験的フィードバックと設計選択に基づく単純な近似が,MRAによる自己意識のアプローチをもたらすことを示す。
- 参考スコア(独自算出の注目度): 27.153744447529593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have emerged as a preferred model for many tasks in natural
langugage processing and vision. Recent efforts on training and deploying
Transformers more efficiently have identified many strategies to approximate
the self-attention matrix, a key module in a Transformer architecture.
Effective ideas include various prespecified sparsity patterns, low-rank basis
expansions and combinations thereof. In this paper, we revisit classical
Multiresolution Analysis (MRA) concepts such as Wavelets, whose potential value
in this setting remains underexplored thus far. We show that simple
approximations based on empirical feedback and design choices informed by
modern hardware and implementation challenges, eventually yield a MRA-based
approach for self-attention with an excellent performance profile across most
criteria of interest. We undertake an extensive set of experiments and
demonstrate that this multi-resolution scheme outperforms most efficient
self-attention proposals and is favorable for both short and long sequences.
Code is available at \url{https://github.com/mlpen/mra-attention}.
- Abstract(参考訳): トランスフォーマーは、自然言語処理や視覚の多くのタスクに好まれるモデルとして登場してきた。
トランスフォーマーのトレーニングとデプロイに関する最近の取り組みは、トランスフォーマーアーキテクチャにおけるキーモジュールである自己注意行列を近似する多くの戦略を特定している。
効果的なアイデアには、様々な所定のスパーシティパターン、低ランク基底展開、それらの組み合わせが含まれる。
本稿では,従来のマルチレゾリューション解析(MRA)の概念であるウェーブレットについて再検討する。
ハードウェアや実装の課題から得られる経験的フィードバックと設計上の選択に基づく単純な近似が,MRAベースの自己注意アプローチを,ほとんどの関心の基準で優れたパフォーマンスプロファイルで実現していることを示す。
このマルチレゾリューション方式は、最も効率的な自己意図的提案よりも優れており、ショートシーケンスとロングシーケンスの両方に好適であることを示す。
コードは \url{https://github.com/mlpen/mra-attention} で入手できる。
関連論文リスト
- Multi-Scale Implicit Transformer with Re-parameterize for
Arbitrary-Scale Super-Resolution [2.4865475189445405]
マルチスケールインプリシットトランス(MSIT)
MSITは、MSNO(Multi-scale Neural Operator)とMSSA(Multi-scale Self-Attention)から構成される。
論文 参考訳(メタデータ) (2024-03-11T09:23:20Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate
ranks [49.85896045032822]
非支配解と最高多変量階との自然な関係を示し、これは合同累積分布関数(CDF)の最外層線と一致する。
我々はCDFインジケータに基づくBOtiedと呼ばれる取得関数を提案する。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - A Pareto-optimal compositional energy-based model for sampling and
optimization of protein sequences [55.25331349436895]
深層生成モデルは、生命科学における逆問題に対する一般的な機械学習ベースのアプローチとして登場した。
これらの問題は、データ分布の学習に加えて、興味のある複数の特性を満たす新しい設計をサンプリングする必要があることが多い。
論文 参考訳(メタデータ) (2022-10-19T19:04:45Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - InsPose: Instance-Aware Networks for Single-Stage Multi-Person Pose
Estimation [37.80984212500406]
本稿では,インスタンス認識型動的ネットワークを用いて,シンプルで効果的な解を提案する。
具体的には、各インスタンスのネットワークパラメータを適応的に(一部)調整するインスタンス対応モジュールを提案する。
我々のソリューションは、コンパクトなエンドツーエンドのトレーニング可能なパイプラインを維持しながら、様々なポーズを認識するためのネットワークの容量と適応性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-07-19T15:56:09Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。