Fugu-MT 論文翻訳(概要): Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

論文の概要: Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

arxiv url: http://arxiv.org/abs/2305.06324v1
Date: Wed, 10 May 2023 17:22:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-11 12:07:02.571445
Title: Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
Title（参考訳）: 統合的マルチモーダル知覚のための交互勾配降下とミックス・オブ・エキスパート
Authors: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam
Abstract要約: IMP(Integrated Multimodal Perception)は、シンプルでスケーラブルなマルチモーダルマルチタスクトレーニングおよびモデリングアプローチである。 IMPは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を、最小限のモダリティ固有のコンポーネントを持つ単一のトランスフォーマーエンコーダに統合する。
参考スコア（独自算出の注目度）: 21.165092150255564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Integrated Multimodal Perception (IMP), a simple and scalable multimodal multi-task training and modeling approach. IMP integrates multimodal inputs including image, video, text, and audio into a single Transformer encoder with minimal modality-specific components. IMP makes use of a novel design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts (MoE) for efficient model \& task scaling. We conduct extensive empirical studies about IMP and reveal the following key insights: 1) performing gradient descent updates by alternating on diverse heterogeneous modalities, loss functions, and tasks, while also varying input resolutions, efficiently improves multimodal understanding. 2) model sparsification with MoE on a single modality-agnostic encoder substantially improves the performance, outperforming dense models that use modality-specific encoders or additional fusion layers and greatly mitigating the conflicts between modalities. IMP achieves competitive performance on a wide range of downstream tasks including image classification, video classification, image-text, and video-text retrieval. Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves new state-of-the-art in zero-shot video classification. Our model achieves 77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700 zero-shot classification accuracy, improving the previous state-of-the-art by +5%, +6.7%, and +5.8%, respectively, while using only 15% of their total training computational cost.
Abstract（参考訳）: Integrated Multimodal Perception (IMP) は、シンプルでスケーラブルなマルチモーダルマルチタスクトレーニングおよびモデリングアプローチである。 IMPは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を、最小限のモダリティ固有のコンポーネントを持つ単一のトランスフォーマーエンコーダに統合する。 IMPは、効率的なモデル \&タスクスケーリングのために、AGD(Alternating Gradient Descent)とMixture-of-Experts(MoE)を組み合わせた新しい設計を採用している。 IMPに関する広範な実証研究を行い、以下の重要な洞察を明らかにします。 1) 多様な不均一なモーダル性, 損失関数, タスクを交互に交互に行い, 入力解像度も変化し, マルチモーダル理解を効率的に改善する。 2) 単一モダリティ非依存エンコーダ上でのMoEによるモデルスペーシ化は,モダリティ固有のエンコーダや追加の融合層を用いた高密度モデルよりも優れ,モダリティ間の衝突を大幅に軽減する。 IMPは、画像分類、ビデオ分類、画像テキスト検索、ビデオテキスト検索など、幅広い下流タスクにおいて、競争性能を達成する。とくに、ゼロショットビデオ分類における新しい最先端技術を実現するためのビデオタスクに焦点をあてて、スパースIMP-MoE-Lを訓練する。本研究では,Kineetics-400の77.0%,Kineetics-600の76.8%,Kineetics-700の0ショット分類精度の76.8%を達成し,トレーニングコストの15%しか使用せず,従来の技術水準を+5%,+6.7%,+5.8%改善した。

関連論文リスト

EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation [6.314084134346798]
EGFormerは効率的なマルチモーダルセマンティックセグメンテーションフレームワークである。任意の数のモダリティを柔軟に統合し、モデルパラメータと推論時間を著しく削減する。最大88%のパラメータが減少し、50%のGFLOPが削減される。
論文参考訳（メタデータ） (2025-05-20T07:08:49Z)
PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement [83.89668902758243]
多フレームビデオ強調タスクは、ビデオシーケンスの空間的および時間的解像度と品質を改善することを目的としている。映像強調のためのプログレッシブマルチフレーム量子化(PMQ-VE)を提案する。このフレームワークは、バックトラックベースマルチフレーム量子化(BMFQ)とプログレッシブマルチ教師蒸留(PMTD)という、粗大な2段階のプロセスを備えている。
論文参考訳（メタデータ） (2025-05-18T07:10:40Z)
Multimodal Sentiment Analysis on CMU-MOSEI Dataset using Transformer-based Models [0.0]
本研究は,CMU-MOSEIデータセットを用いたマルチモーダル感情分析を行う。我々は、テキスト、オーディオ、視覚のモダリティを統合するために、早期融合を伴うトランスフォーマーベースのモデルを使用する。このモデルは、97.87%の7クラス精度と0.9682 F1スコアで高い性能を達成している。
論文参考訳（メタデータ） (2025-05-09T15:10:57Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。最先端の刈り取り法に比べて優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T17:19:15Z)
SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators [12.416683044819955]
最近の大規模言語モデルのような重モデルによるマルチモデルワークロードは、ハードウェアにおける計算とメモリの要求を大幅に増加させた。このような要求に対処するため、スケーラブルなハードウェアアーキテクチャを設計することが重要な問題となった。我々は,巨大なスケジューリング空間をナビゲートするスケジューラのセットを開発し,それらをスケジューラであるSCARに符号化する。
論文参考訳（メタデータ） (2024-05-01T18:02:25Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文参考訳（メタデータ） (2024-01-21T11:55:42Z)
Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification [6.341420717393898]
我々は,新しいマルチスケールオーディオトランス (MAT) とマルチスケールビデオトランス (MMT) を開発した。提案されたMATは、3つの公開ベンチマークデータセットでAST[28]を22.2%、4.4%、4.7%で大幅に上回っている。 FLOPの数に基づいて約3%効率が良く、GPUメモリ使用量に基づいて9.8%効率が良い。
論文参考訳（メタデータ） (2024-01-08T17:02:25Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文参考訳（メタデータ） (2022-03-31T21:35:13Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。