論文の概要: Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities
- arxiv url: http://arxiv.org/abs/2401.11143v4
- Date: Sun, 29 Sep 2024 00:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:03.341603
- Title: Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities
- Title(参考訳): 密度適応型注意:ロバストパラメーター効率の良い複数モード間の微調整
- Authors: Georgios Ioannides, Aman Chadha, Aaron Elkins,
- Abstract要約: DAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
DAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示す。
本稿では,DAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factorを紹介する。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License:
- Abstract: We propose the Multi-Head Density Adaptive Attention Mechanism (DAAM), a novel probabilistic attention framework that can be used for Parameter-Efficient Fine-tuning (PEFT), and the Density Adaptive Transformer (DAT), designed to enhance information aggregation across multiple modalities, including Speech, Text, and Vision. DAAM integrates learnable mean and variance into its attention mechanism, implemented in a multi-head framework, enabling it to collectively model any probability distribution for dynamic recalibration of feature significance. This method demonstrates significant improvements, especially with highly non-stationary data, surpassing the state-of-the-art attention techniques in model performance, up to approximately +20% (abs.) in accuracy. Empirically, DAAM exhibits superior adaptability and efficacy across a diverse range of tasks, including emotion recognition in speech, image classification, and text classification, thereby establishing its robustness and versatility in handling data across multiple modalities. Furthermore, we introduce the Importance Factor, a new learning-based metric that enhances the explainability of models trained with DAAM-based methods.
- Abstract(参考訳): 本稿では,パラメータ効率の高いファインチューニング(PEFT)に利用できる新しい確率的アテンションフレームワークDAAMと,音声,テキスト,ビジョンを含む複数のモードにわたる情報集約を強化するために設計された密度適応変換器(DAT)を提案する。
DAAMは学習可能な平均と分散をマルチヘッドフレームワークに実装したアテンションメカニズムに統合し、特徴量の動的再分類のための確率分布を集合的にモデル化する。
この手法は、特に非定常データにおいて、モデル性能における最先端の注意手法を超越し、精度が約20%まで向上したことを示す。
経験的に、DAAMは、音声における感情認識、画像分類、テキスト分類を含む様々なタスクにおいて、優れた適応性と有効性を示し、複数のモードにわたるデータの扱いにおいて、その堅牢性と汎用性を確立する。
さらに,DAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factorを導入する。
関連論文リスト
- MCSFF: Multi-modal Consistency and Specificity Fusion Framework for Entity Alignment [7.109735168520378]
知識グラフの強化と質問応答システムの改善には,MMEA(Multi-modal entity alignment)が不可欠である。
既存の方法は、しばしばそれらの相補性を通じてモダリティを統合することにフォーカスするが、各モダリティの特異性を見落としている。
本稿では,モダリティの相補性と特異性の両方を革新的に統合するマルチモーダル一貫性・特異性融合フレームワーク(MCSFF)を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:35:25Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Learning Language-guided Adaptive Hyper-modality Representation for
Multimodal Sentiment Analysis [22.012103941836838]
適応型言語誘導型マルチモーダルトランス(ALMT)を提案する。
ALMTにはAdaptive Hyper-modality Learning (AHL)モジュールが組み込まれており、無関係/複雑圧縮表現を学習する。
ALMTは、いくつかの一般的なデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-09T15:43:07Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。