論文の概要: On Uni-Modal Feature Learning in Supervised Multi-Modal Learning
- arxiv url: http://arxiv.org/abs/2305.01233v3
- Date: Fri, 23 Jun 2023 13:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 17:06:51.376950
- Title: On Uni-Modal Feature Learning in Supervised Multi-Modal Learning
- Title(参考訳): 教師付きマルチモーダル学習における一様特徴学習について
- Authors: Chenzhuang Du, Jiaye Teng, Tingle Li, Yichen Liu, Tianyuan Yuan, Yue
Wang, Yang Yuan, Hang Zhao
- Abstract要約: マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 21.822251958013737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We abstract the features (i.e. learned representations) of multi-modal data
into 1) uni-modal features, which can be learned from uni-modal training, and
2) paired features, which can only be learned from cross-modal interactions.
Multi-modal models are expected to benefit from cross-modal interactions on the
basis of ensuring uni-modal feature learning. However, recent supervised
multi-modal late-fusion training approaches still suffer from insufficient
learning of uni-modal features on each modality. We prove that this phenomenon
does hurt the model's generalization ability. To this end, we propose to choose
a targeted late-fusion learning method for the given supervised multi-modal
task from Uni-Modal Ensemble(UME) and the proposed Uni-Modal Teacher(UMT),
according to the distribution of uni-modal and paired features. We demonstrate
that, under a simple guiding strategy, we can achieve comparable results to
other complex late-fusion or intermediate-fusion methods on various multi-modal
datasets, including VGG-Sound, Kinetics-400, UCF101, and ModelNet40.
- Abstract(参考訳): 我々はマルチモーダルデータの特徴(すなわち学習表現)を抽象化する
1)ユニモーダルトレーニングから学べるユニモーダルの特徴,および
2) 相互モーダル相互作用からのみ学習できるペア機能。
マルチモーダルモデルは、一様特徴学習の保証に基づいて、相互モーダル相互作用の恩恵を受けることが期待される。
しかし,近年のマルチモーダル・レイト・フュージョン・トレーニングアプローチでは,各モダリティにおけるユニモーダル特徴の学習が不十分なままである。
この現象がモデルの一般化能力を損なうことを証明します。
そこで本研究では,Uni-Modal Ensemble (UME) とUni-Modal Teacher (UMT) から,Uni-Modal and paired feature の分布に応じて,教師付きマルチモーダルタスクを対象とした遅延融合学習手法を提案する。
簡単な誘導戦略により,VGG-Sound, Kinetics-400, UCF101, ModelNet40 など,様々なマルチモーダルデータセット上での遅延融合や中間融合手法に匹敵する結果が得られることを示す。
関連論文リスト
- Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning [29.237813880311943]
本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T09:18:38Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Improving Multi-Modal Learning with Uni-Modal Teachers [14.917618203952479]
そこで本研究では,融合目標と一様蒸留を組み合わせたマルチモーダル学習手法Uni-Modal Teacherを提案する。
提案手法は,各モードの表現を劇的に改善するだけでなく,総合的なマルチモーダルタスク性能も向上することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:46:47Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。