論文の概要: Multi Resolution Analysis (MRA) for Approximate Self-Attention
- arxiv url: http://arxiv.org/abs/2207.10284v1
- Date: Thu, 21 Jul 2022 03:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:31:24.481850
- Title: Multi Resolution Analysis (MRA) for Approximate Self-Attention
- Title(参考訳): 近似自己認識のための多重分解能解析(MRA)
- Authors: Zhanpeng Zeng, Sourav Pal, Jeffery Kline, Glenn M Fung, Vikas Singh
- Abstract要約: トランスフォーマーをより効率的に訓練し展開するための最近の取り組みは、自己注意行列を近似する多くの戦略を特定している。
本稿では、ウェーブレットのような古典的マルチレゾリューション解析(MRA)の概念を再考する。
ハードウェアと実装の課題から得られた経験的フィードバックと設計選択に基づく単純な近似が,MRAによる自己意識のアプローチをもたらすことを示す。
- 参考スコア(独自算出の注目度): 27.153744447529593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have emerged as a preferred model for many tasks in natural
langugage processing and vision. Recent efforts on training and deploying
Transformers more efficiently have identified many strategies to approximate
the self-attention matrix, a key module in a Transformer architecture.
Effective ideas include various prespecified sparsity patterns, low-rank basis
expansions and combinations thereof. In this paper, we revisit classical
Multiresolution Analysis (MRA) concepts such as Wavelets, whose potential value
in this setting remains underexplored thus far. We show that simple
approximations based on empirical feedback and design choices informed by
modern hardware and implementation challenges, eventually yield a MRA-based
approach for self-attention with an excellent performance profile across most
criteria of interest. We undertake an extensive set of experiments and
demonstrate that this multi-resolution scheme outperforms most efficient
self-attention proposals and is favorable for both short and long sequences.
Code is available at \url{https://github.com/mlpen/mra-attention}.
- Abstract(参考訳): トランスフォーマーは、自然言語処理や視覚の多くのタスクに好まれるモデルとして登場してきた。
トランスフォーマーのトレーニングとデプロイに関する最近の取り組みは、トランスフォーマーアーキテクチャにおけるキーモジュールである自己注意行列を近似する多くの戦略を特定している。
効果的なアイデアには、様々な所定のスパーシティパターン、低ランク基底展開、それらの組み合わせが含まれる。
本稿では,従来のマルチレゾリューション解析(MRA)の概念であるウェーブレットについて再検討する。
ハードウェアや実装の課題から得られる経験的フィードバックと設計上の選択に基づく単純な近似が,MRAベースの自己注意アプローチを,ほとんどの関心の基準で優れたパフォーマンスプロファイルで実現していることを示す。
このマルチレゾリューション方式は、最も効率的な自己意図的提案よりも優れており、ショートシーケンスとロングシーケンスの両方に好適であることを示す。
コードは \url{https://github.com/mlpen/mra-attention} で入手できる。
関連論文リスト
- M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Multi-Scale Implicit Transformer with Re-parameterize for
Arbitrary-Scale Super-Resolution [2.4865475189445405]
マルチスケールインプリシットトランス(MSIT)
MSITは、MSNO(Multi-scale Neural Operator)とMSSA(Multi-scale Self-Attention)から構成される。
論文 参考訳(メタデータ) (2024-03-11T09:23:20Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - InsPose: Instance-Aware Networks for Single-Stage Multi-Person Pose
Estimation [37.80984212500406]
本稿では,インスタンス認識型動的ネットワークを用いて,シンプルで効果的な解を提案する。
具体的には、各インスタンスのネットワークパラメータを適応的に(一部)調整するインスタンス対応モジュールを提案する。
我々のソリューションは、コンパクトなエンドツーエンドのトレーニング可能なパイプラインを維持しながら、様々なポーズを認識するためのネットワークの容量と適応性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-07-19T15:56:09Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。