論文の概要: Efficient Audiovisual Speech Processing via MUTUD: Multimodal Training and Unimodal Deployment
- arxiv url: http://arxiv.org/abs/2501.18157v1
- Date: Thu, 30 Jan 2025 05:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:48.653614
- Title: Efficient Audiovisual Speech Processing via MUTUD: Multimodal Training and Unimodal Deployment
- Title(参考訳): MUTUDによる高能率音声処理:マルチモーダルトレーニングと単一モーダル展開
- Authors: Joanna Hong, Sanjeel Parekh, Honglie Chen, Jacob Donley, Ke Tan, Buye Xu, Anurag Kumar,
- Abstract要約: 信頼できる音声システムを構築するには、オーディオや視覚的手がかりなど、複数のモダリティを組み合わせる必要があることが多い。
本稿では,TAMEモジュールを含むMultimodal Training and Unimodal Deployment(MUTUD)フレームワークを提案する。
この革新的なアプローチは、異なるモーダル間の情報の統合を促進し、各モーダルの強さを活用して、推論中に特定のモーダルが存在しないことを補うことによって、全体的な推論プロセスを強化する。
- 参考スコア(独自算出の注目度): 19.067586642181368
- License:
- Abstract: Building reliable speech systems often requires combining multiple modalities, like audio and visual cues. While such multimodal solutions frequently lead to improvements in performance and may even be critical in certain cases, they come with several constraints such as increased sensory requirements, computational cost, and modality synchronization, to mention a few. These challenges constrain the direct uses of these multimodal solutions in real-world applications. In this work, we develop approaches where the learning happens with all available modalities but the deployment or inference is done with just one or reduced modalities. To do so, we propose a Multimodal Training and Unimodal Deployment (MUTUD) framework which includes a Temporally Aligned Modality feature Estimation (TAME) module that can estimate information from missing modality using modalities present during inference. This innovative approach facilitates the integration of information across different modalities, enhancing the overall inference process by leveraging the strengths of each modality to compensate for the absence of certain modalities during inference. We apply MUTUD to various audiovisual speech tasks and show that it can reduce the performance gap between the multimodal and corresponding unimodal models to a considerable extent. MUTUD can achieve this while reducing the model size and compute compared to multimodal models, in some cases by almost 80%.
- Abstract(参考訳): 信頼できる音声システムを構築するには、オーディオや視覚的手がかりなど、複数のモダリティを組み合わせる必要があることが多い。
このようなマルチモーダルなソリューションは性能の向上につながることが多く、場合によっては重要な場合もあるが、感覚的要求の増加、計算コストの増大、モダリティの同期など、いくつかの制約がある。
これらの課題は、現実世界のアプリケーションにおけるこれらのマルチモーダルソリューションの直接的な使用を制限している。
この研究では、学習が利用可能なすべてのモダリティで起こるアプローチを開発するが、デプロイや推論はたった1つまたは2つのモダリティで行われる。
そこで本稿では,Multimodal Training and Unimodal Deployment (MUTUD) フレームワークを提案する。
この革新的なアプローチは、異なるモーダル間の情報の統合を促進し、各モーダルの強さを活用して、推論中に特定のモーダルが存在しないことを補うことによって、全体的な推論プロセスを強化する。
MUTUDを様々な音声視覚音声タスクに適用し、マルチモーダルモデルとそれに対応する単調モデルのパフォーマンスギャップをある程度低減できることを示す。
MUTUDは、マルチモーダルモデルと比較してモデルサイズと計算量を約80%削減し、これを実現することができる。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - On Robustness in Multimodal Learning [75.03719000820388]
マルチモーダル学習は、ビデオ、オーディオ、テキストなどの複数の入力モダリティの学習として定義される。
本稿では,一般的なマルチモーダル表現学習手法の体系的解析を行うためのマルチモーダルロバストネスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。