論文の概要: One-stage Modality Distillation for Incomplete Multimodal Learning
- arxiv url: http://arxiv.org/abs/2309.08204v1
- Date: Fri, 15 Sep 2023 07:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:32:09.914510
- Title: One-stage Modality Distillation for Incomplete Multimodal Learning
- Title(参考訳): 不完全マルチモーダル学習のための1段階モーダル蒸留
- Authors: Shicai Wei, Yang Luo, Chunbo Luo
- Abstract要約: 本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 7.791488931628906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning based on multimodal data has attracted increasing interest recently.
While a variety of sensory modalities can be collected for training, not all of
them are always available in development scenarios, which raises the challenge
to infer with incomplete modality. To address this issue, this paper presents a
one-stage modality distillation framework that unifies the privileged knowledge
transfer and modality information fusion into a single optimization procedure
via multi-task learning. Compared with the conventional modality distillation
that performs them independently, this helps to capture the valuable
representation that can assist the final model inference directly.
Specifically, we propose the joint adaptation network for the modality transfer
task to preserve the privileged information. This addresses the representation
heterogeneity caused by input discrepancy via the joint distribution
adaptation. Then, we introduce the cross translation network for the modality
fusion task to aggregate the restored and available modality features. It
leverages the parameters-sharing strategy to capture the cross-modal cues
explicitly. Extensive experiments on RGB-D classification and segmentation
tasks demonstrate the proposed multimodal inheritance framework can overcome
the problem of incomplete modality input in various scenes and achieve
state-of-the-art performance.
- Abstract(参考訳): 近年,マルチモーダルデータに基づく学習への関心が高まっている。
様々な感覚的モダリティがトレーニングのために収集されるが、開発シナリオで常に利用可能であるとは限らないため、不完全なモダリティを推測することの難しさが高まる。
この問題に対処するため,マルチタスク学習を通じて,特権的知識伝達とモダリティ情報融合を単一の最適化手順に統合する一段階のモダリティ蒸留フレームワークを提案する。
単独で行う従来のモダリティ蒸留と比較すると、これは最終モデル推論を直接支援できる貴重な表現を捉えるのに役立つ。
具体的には、特権情報を保存するモダリティ転送タスクのための協調適応ネットワークを提案する。
これは、結合分布適応による入力不一致に起因する表現の不均一性に対処する。
次に,モダリティ融合タスクのためのクロス翻訳ネットワークを導入し,復元および利用可能なモダリティ機能を集約する。
パラメータ共有戦略を利用して、クロスモーダルなキューを明示的にキャプチャする。
rgb-d分類とセグメンテーションタスクに関する広範な実験により、提案されたマルチモーダル継承フレームワークは、様々なシーンにおける不完全モダリティ入力の問題を克服し、最先端のパフォーマンスを達成することができる。
関連論文リスト
- Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Incomplete Multimodal Learning for Remote Sensing Data Fusion [12.822457129596824]
遠隔センシングデータ融合タスクにおけるマルチモーダルトランスフォーマーネットワークの成功には,自己注意操作によるマルチモーダル信号の接続機構が鍵となる。
従来のアプローチでは、トレーニングと推論の両方の間、すべてのモダリティへのアクセスを前提としており、下流アプリケーションでモーダル不完全入力を扱う場合、深刻な劣化を引き起こす可能性がある。
提案手法は,リモートセンシングデータ融合の文脈において,不完全なマルチモーダル学習のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T12:16:52Z) - Revisiting Modality Imbalance In Multimodal Pedestrian Detection [6.7841188753203046]
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
論文 参考訳(メタデータ) (2023-02-24T11:56:57Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。