論文の概要: Alternating Gradient Descent and Mixture-of-Experts for Integrated
Multimodal Perception
- arxiv url: http://arxiv.org/abs/2305.06324v1
- Date: Wed, 10 May 2023 17:22:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:07:02.571445
- Title: Alternating Gradient Descent and Mixture-of-Experts for Integrated
Multimodal Perception
- Title(参考訳): 統合的マルチモーダル知覚のための交互勾配降下とミックス・オブ・エキスパート
- Authors: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang,
Hartwig Adam
- Abstract要約: IMP(Integrated Multimodal Perception)は、シンプルでスケーラブルなマルチモーダルマルチタスクトレーニングおよびモデリングアプローチである。
IMPは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を、最小限のモダリティ固有のコンポーネントを持つ単一のトランスフォーマーエンコーダに統合する。
- 参考スコア(独自算出の注目度): 21.165092150255564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Integrated Multimodal Perception (IMP), a simple and scalable
multimodal multi-task training and modeling approach. IMP integrates multimodal
inputs including image, video, text, and audio into a single Transformer
encoder with minimal modality-specific components. IMP makes use of a novel
design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts
(MoE) for efficient model \& task scaling. We conduct extensive empirical
studies about IMP and reveal the following key insights: 1) performing gradient
descent updates by alternating on diverse heterogeneous modalities, loss
functions, and tasks, while also varying input resolutions, efficiently
improves multimodal understanding. 2) model sparsification with MoE on a single
modality-agnostic encoder substantially improves the performance, outperforming
dense models that use modality-specific encoders or additional fusion layers
and greatly mitigating the conflicts between modalities. IMP achieves
competitive performance on a wide range of downstream tasks including image
classification, video classification, image-text, and video-text retrieval.
Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves
new state-of-the-art in zero-shot video classification. Our model achieves
77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700
zero-shot classification accuracy, improving the previous state-of-the-art by
+5%, +6.7%, and +5.8%, respectively, while using only 15% of their total
training computational cost.
- Abstract(参考訳): Integrated Multimodal Perception (IMP) は、シンプルでスケーラブルなマルチモーダルマルチタスクトレーニングおよびモデリングアプローチである。
IMPは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を、最小限のモダリティ固有のコンポーネントを持つ単一のトランスフォーマーエンコーダに統合する。
IMPは、効率的なモデル \&タスクスケーリングのために、AGD(Alternating Gradient Descent)とMixture-of-Experts(MoE)を組み合わせた新しい設計を採用している。
IMPに関する広範な実証研究を行い、以下の重要な洞察を明らかにします。
1) 多様な不均一なモーダル性, 損失関数, タスクを交互に交互に行い, 入力解像度も変化し, マルチモーダル理解を効率的に改善する。
2) 単一モダリティ非依存エンコーダ上でのMoEによるモデルスペーシ化は,モダリティ固有のエンコーダや追加の融合層を用いた高密度モデルよりも優れ,モダリティ間の衝突を大幅に軽減する。
IMPは、画像分類、ビデオ分類、画像テキスト検索、ビデオテキスト検索など、幅広い下流タスクにおいて、競争性能を達成する。
とくに、ゼロショットビデオ分類における新しい最先端技術を実現するためのビデオタスクに焦点をあてて、スパースIMP-MoE-Lを訓練する。
本研究では,Kineetics-400の77.0%,Kineetics-600の76.8%,Kineetics-700の0ショット分類精度の76.8%を達成し,トレーニングコストの15%しか使用せず,従来の技術水準を+5%,+6.7%,+5.8%改善した。
関連論文リスト
- AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators [12.416683044819955]
最近の大規模言語モデルのような重モデルによるマルチモデルワークロードは、ハードウェアにおける計算とメモリの要求を大幅に増加させた。
このような要求に対処するため、スケーラブルなハードウェアアーキテクチャを設計することが重要な問題となった。
我々は,巨大なスケジューリング空間をナビゲートするスケジューラのセットを開発し,それらをスケジューラであるSCARに符号化する。
論文 参考訳(メタデータ) (2024-05-01T18:02:25Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video
Classification [6.341420717393898]
我々は,新しいマルチスケールオーディオトランス (MAT) とマルチスケールビデオトランス (MMT) を開発した。
提案されたMATは、3つの公開ベンチマークデータセットでAST[28]を22.2%、4.4%、4.7%で大幅に上回っている。
FLOPの数に基づいて約3%効率が良く、GPUメモリ使用量に基づいて9.8%効率が良い。
論文 参考訳(メタデータ) (2024-01-08T17:02:25Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文 参考訳(メタデータ) (2022-03-31T21:35:13Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。