論文の概要: One-stage Modality Distillation for Incomplete Multimodal Learning
- arxiv url: http://arxiv.org/abs/2309.08204v1
- Date: Fri, 15 Sep 2023 07:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:32:09.914510
- Title: One-stage Modality Distillation for Incomplete Multimodal Learning
- Title(参考訳): 不完全マルチモーダル学習のための1段階モーダル蒸留
- Authors: Shicai Wei, Yang Luo, Chunbo Luo
- Abstract要約: 本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 7.791488931628906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning based on multimodal data has attracted increasing interest recently.
While a variety of sensory modalities can be collected for training, not all of
them are always available in development scenarios, which raises the challenge
to infer with incomplete modality. To address this issue, this paper presents a
one-stage modality distillation framework that unifies the privileged knowledge
transfer and modality information fusion into a single optimization procedure
via multi-task learning. Compared with the conventional modality distillation
that performs them independently, this helps to capture the valuable
representation that can assist the final model inference directly.
Specifically, we propose the joint adaptation network for the modality transfer
task to preserve the privileged information. This addresses the representation
heterogeneity caused by input discrepancy via the joint distribution
adaptation. Then, we introduce the cross translation network for the modality
fusion task to aggregate the restored and available modality features. It
leverages the parameters-sharing strategy to capture the cross-modal cues
explicitly. Extensive experiments on RGB-D classification and segmentation
tasks demonstrate the proposed multimodal inheritance framework can overcome
the problem of incomplete modality input in various scenes and achieve
state-of-the-art performance.
- Abstract(参考訳): 近年,マルチモーダルデータに基づく学習への関心が高まっている。
様々な感覚的モダリティがトレーニングのために収集されるが、開発シナリオで常に利用可能であるとは限らないため、不完全なモダリティを推測することの難しさが高まる。
この問題に対処するため,マルチタスク学習を通じて,特権的知識伝達とモダリティ情報融合を単一の最適化手順に統合する一段階のモダリティ蒸留フレームワークを提案する。
単独で行う従来のモダリティ蒸留と比較すると、これは最終モデル推論を直接支援できる貴重な表現を捉えるのに役立つ。
具体的には、特権情報を保存するモダリティ転送タスクのための協調適応ネットワークを提案する。
これは、結合分布適応による入力不一致に起因する表現の不均一性に対処する。
次に,モダリティ融合タスクのためのクロス翻訳ネットワークを導入し,復元および利用可能なモダリティ機能を集約する。
パラメータ共有戦略を利用して、クロスモーダルなキューを明示的にキャプチャする。
rgb-d分類とセグメンテーションタスクに関する広範な実験により、提案されたマルチモーダル継承フレームワークは、様々なシーンにおける不完全モダリティ入力の問題を克服し、最先端のパフォーマンスを達成することができる。
関連論文リスト
- Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Incomplete Multimodal Learning for Remote Sensing Data Fusion [12.822457129596824]
遠隔センシングデータ融合タスクにおけるマルチモーダルトランスフォーマーネットワークの成功には,自己注意操作によるマルチモーダル信号の接続機構が鍵となる。
従来のアプローチでは、トレーニングと推論の両方の間、すべてのモダリティへのアクセスを前提としており、下流アプリケーションでモーダル不完全入力を扱う場合、深刻な劣化を引き起こす可能性がある。
提案手法は,リモートセンシングデータ融合の文脈において,不完全なマルチモーダル学習のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T12:16:52Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。