Fugu-MT 論文翻訳(概要): Multi Resolution Analysis (MRA) for Approximate Self-Attention

論文の概要: Multi Resolution Analysis (MRA) for Approximate Self-Attention

arxiv url: http://arxiv.org/abs/2207.10284v1
Date: Thu, 21 Jul 2022 03:36:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-22 12:31:24.481850
Title: Multi Resolution Analysis (MRA) for Approximate Self-Attention
Title（参考訳）: 近似自己認識のための多重分解能解析(MRA)
Authors: Zhanpeng Zeng, Sourav Pal, Jeffery Kline, Glenn M Fung, Vikas Singh
Abstract要約: トランスフォーマーをより効率的に訓練し展開するための最近の取り組みは、自己注意行列を近似する多くの戦略を特定している。本稿では、ウェーブレットのような古典的マルチレゾリューション解析(MRA)の概念を再考する。ハードウェアと実装の課題から得られた経験的フィードバックと設計選択に基づく単純な近似が,MRAによる自己意識のアプローチをもたらすことを示す。
参考スコア（独自算出の注目度）: 27.153744447529593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have emerged as a preferred model for many tasks in natural langugage processing and vision. Recent efforts on training and deploying Transformers more efficiently have identified many strategies to approximate the self-attention matrix, a key module in a Transformer architecture. Effective ideas include various prespecified sparsity patterns, low-rank basis expansions and combinations thereof. In this paper, we revisit classical Multiresolution Analysis (MRA) concepts such as Wavelets, whose potential value in this setting remains underexplored thus far. We show that simple approximations based on empirical feedback and design choices informed by modern hardware and implementation challenges, eventually yield a MRA-based approach for self-attention with an excellent performance profile across most criteria of interest. We undertake an extensive set of experiments and demonstrate that this multi-resolution scheme outperforms most efficient self-attention proposals and is favorable for both short and long sequences. Code is available at \url{https://github.com/mlpen/mra-attention}.
Abstract（参考訳）: トランスフォーマーは、自然言語処理や視覚の多くのタスクに好まれるモデルとして登場してきた。トランスフォーマーのトレーニングとデプロイに関する最近の取り組みは、トランスフォーマーアーキテクチャにおけるキーモジュールである自己注意行列を近似する多くの戦略を特定している。効果的なアイデアには、様々な所定のスパーシティパターン、低ランク基底展開、それらの組み合わせが含まれる。本稿では,従来のマルチレゾリューション解析(MRA)の概念であるウェーブレットについて再検討する。ハードウェアや実装の課題から得られる経験的フィードバックと設計上の選択に基づく単純な近似が,MRAベースの自己注意アプローチを,ほとんどの関心の基準で優れたパフォーマンスプロファイルで実現していることを示す。このマルチレゾリューション方式は、最も効率的な自己意図的提案よりも優れており、ショートシーケンスとロングシーケンスの両方に好適であることを示す。コードは \url{https://github.com/mlpen/mra-attention} で入手できる。

関連論文リスト

ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting [10.899510048905926]
本稿では,機能間の複雑な依存関係を管理し,予測の不確実性を定量化するアダプタを提案する。合成データセットと実世界のデータセットの両方で実施された実験により、アダプタの有効性が確認された。私たちのフレームワークであるAdaPTSは、アダプタをモジュール的でスケーラブルで効果的なソリューションとして位置づけています。
論文参考訳（メタデータ） (2025-02-14T15:46:19Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文参考訳（メタデータ） (2024-03-15T15:47:54Z)
Multi-Scale Implicit Transformer with Re-parameterize for Arbitrary-Scale Super-Resolution [2.4865475189445405]
マルチスケールインプリシットトランス(MSIT) MSITは、MSNO(Multi-scale Neural Operator)とMSSA(Multi-scale Self-Attention)から構成される。
論文参考訳（メタデータ） (2024-03-11T09:23:20Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Abstractive Sentence Summarization with Guidance of Selective Multimodal Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文参考訳（メタデータ） (2021-08-11T09:59:34Z)
Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文参考訳（メタデータ） (2021-08-10T23:17:16Z)
InsPose: Instance-Aware Networks for Single-Stage Multi-Person Pose Estimation [37.80984212500406]
本稿では,インスタンス認識型動的ネットワークを用いて,シンプルで効果的な解を提案する。具体的には、各インスタンスのネットワークパラメータを適応的に(一部)調整するインスタンス対応モジュールを提案する。我々のソリューションは、コンパクトなエンドツーエンドのトレーニング可能なパイプラインを維持しながら、様々なポーズを認識するためのネットワークの容量と適応性を大幅に向上させることができる。
論文参考訳（メタデータ） (2021-07-19T15:56:09Z)
Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。潜在変数を使って一般化可能な学習パターンをモデル化する。推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文参考訳（メタデータ） (2020-10-07T03:11:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。