論文の概要: Alternating Gradient Descent and Mixture-of-Experts for Integrated
Multimodal Perception
- arxiv url: http://arxiv.org/abs/2305.06324v2
- Date: Mon, 11 Dec 2023 18:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:41:44.082204
- Title: Alternating Gradient Descent and Mixture-of-Experts for Integrated
Multimodal Perception
- Title(参考訳): 統合的マルチモーダル知覚のための交互勾配降下とミックス・オブ・エキスパート
- Authors: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang,
Hartwig Adam
- Abstract要約: IMP(Integrated Multimodal Perception)は、シンプルでスケーラブルなマルチモーダルマルチタスクトレーニングおよびモデリングアプローチである。
IMPは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を、最小限のモダリティ固有のコンポーネントを持つ単一のトランスフォーマーエンコーダに統合する。
- 参考スコア(独自算出の注目度): 25.800488998227753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Integrated Multimodal Perception (IMP), a simple and scalable
multimodal multi-task training and modeling approach. IMP integrates multimodal
inputs including image, video, text, and audio into a single Transformer
encoder with minimal modality-specific components. IMP makes use of a novel
design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts
(MoE) for efficient model and task scaling. We conduct extensive empirical
studies and reveal the following key insights: 1) Performing gradient descent
updates by alternating on diverse modalities, loss functions, and tasks, with
varying input resolutions, efficiently improves the model. 2) Sparsification
with MoE on a single modality-agnostic encoder substantially improves the
performance, outperforming dense models that use modality-specific encoders or
additional fusion layers and greatly mitigates the conflicts between
modalities. IMP achieves competitive performance on a wide range of downstream
tasks including video classification, image classification, image-text, and
video-text retrieval. Most notably, we train a sparse IMP-MoE-L variant
focusing on video tasks that achieves new state-of-the-art in zero-shot video
classification: 77.0% on Kinetics-400, 76.8% on Kinetics-600, and 68.3% on
Kinetics-700, improving the previous state-of-the-art by +5%, +6.7%, and +5.8%,
respectively, while using only 15% of their total training computational cost.
- Abstract(参考訳): Integrated Multimodal Perception (IMP) は、シンプルでスケーラブルなマルチモーダルマルチタスクトレーニングおよびモデリングアプローチである。
IMPは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を、最小限のモダリティ固有のコンポーネントを持つ単一のトランスフォーマーエンコーダに統合する。
IMPは、効率的なモデルとタスクスケーリングのために、AGD(Alternating Gradient Descent)とMixture-of-Experts(MoE)を組み合わせた新しい設計を採用している。
広範な実証研究を行い、次の重要な知見を明らかにします。
1)様々なモード,損失関数,タスクを交互に交互に行い,入力解像度の異なる勾配降下更新を行い,効率よくモデルを改善する。
2) 1つのモダリティ非依存エンコーダ上のmoeによるスパーシフィケーションは性能を大幅に向上させ、モダリティ固有のエンコーダや追加の融合層を使用する密集したモデルよりも優れ、モダリティ間の競合を大幅に緩和する。
IMPは、映像分類、画像分類、画像テキスト検索、ビデオテキスト検索など、幅広い下流タスクにおいて、競争力を発揮する。
特に、ゼロショットビデオ分類における新しい最先端を実現するためのビデオタスクに焦点をあてたスパースIMP-MoE-Lをトレーニングする: 77.0%がkinetics-400で、76.8%がkinetics-600で、68.3%がkinetics-700で、前回の最先端を+5%、+6.7%、+5.8%が改善した。
関連論文リスト
- AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators [12.416683044819955]
最近の大規模言語モデルのような重モデルによるマルチモデルワークロードは、ハードウェアにおける計算とメモリの要求を大幅に増加させた。
このような要求に対処するため、スケーラブルなハードウェアアーキテクチャを設計することが重要な問題となった。
我々は,巨大なスケジューリング空間をナビゲートするスケジューラのセットを開発し,それらをスケジューラであるSCARに符号化する。
論文 参考訳(メタデータ) (2024-05-01T18:02:25Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video
Classification [6.341420717393898]
我々は,新しいマルチスケールオーディオトランス (MAT) とマルチスケールビデオトランス (MMT) を開発した。
提案されたMATは、3つの公開ベンチマークデータセットでAST[28]を22.2%、4.4%、4.7%で大幅に上回っている。
FLOPの数に基づいて約3%効率が良く、GPUメモリ使用量に基づいて9.8%効率が良い。
論文 参考訳(メタデータ) (2024-01-08T17:02:25Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文 参考訳(メタデータ) (2022-03-31T21:35:13Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。