論文の概要: Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction
- arxiv url: http://arxiv.org/abs/2112.02252v1
- Date: Sat, 4 Dec 2021 05:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:40:45.799375
- Title: Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction
- Title(参考訳): マルチモーダル・マルチタスク画像予測のためのチャネル交換ネットワーク
- Authors: Yikai Wang, Wenbing Huang, Fuchun Sun, Fengxiang He, Dacheng Tao
- Abstract要約: 本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
- 参考スコア(独自算出の注目度): 125.18248926508045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion and multitask learning are two vital topics in machine
learning. Despite the fruitful progress, existing methods for both problems are
still brittle to the same challenge -- it remains dilemmatic to integrate the
common information across modalities (resp. tasks) meanwhile preserving the
specific patterns of each modality (resp. task). Besides, while they are
actually closely related to each other, multimodal fusion and multitask
learning are rarely explored within the same methodological framework before.
In this paper, we propose Channel-Exchanging-Network (CEN) which is
self-adaptive, parameter-free, and more importantly, applicable for both
multimodal fusion and multitask learning. At its core, CEN dynamically
exchanges channels between subnetworks of different modalities. Specifically,
the channel exchanging process is self-guided by individual channel importance
that is measured by the magnitude of Batch-Normalization (BN) scaling factor
during training. For the application of dense image prediction, the validity of
CEN is tested by four different scenarios: multimodal fusion, cycle multimodal
fusion, multitask learning, and multimodal multitask learning. Extensive
experiments on semantic segmentation via RGB-D data and image translation
through multi-domain input verify the effectiveness of our CEN compared to
current state-of-the-art methods. Detailed ablation studies have also been
carried out, which provably affirm the advantage of each component we propose.
- Abstract(参考訳): マルチモーダル融合とマルチタスク学習は、機械学習において2つの重要なトピックである。
実りある進歩にもかかわらず、両方の問題に対する既存の方法は依然として同じ課題に対して脆弱であり、各モダリティ(タスクの参照)の特定のパターンを保存する一方で、モダリティ(タスクの参照)にまたがる共通情報を統合することは、依然として厳密である。
また、実際には互いに密接な関係にあるが、マルチモーダル融合とマルチタスク学習は、以前と同じ方法論の枠組みで研究されることはめったにない。
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
コアでは、CENは異なるモードのサブネットワーク間でチャネルを動的に交換する。
具体的には、チャネル交換プロセスは、トレーニング中のBatch-Normalization(BN)スケーリングファクタの大きさによって測定される個々のチャネル重要度によって自己誘導される。
高密度画像予測の応用において,cenの有効性は,マルチモーダル融合,サイクルマルチモーダル融合,マルチタスク学習,マルチモーダルマルチタスク学習の4つのシナリオで検証される。
RGB-Dデータによるセマンティックセグメンテーションとマルチドメイン入力による画像翻訳の広範な実験は、現在の最先端手法と比較してCENの有効性を検証する。
詳細なアブレーション研究も行われており,提案する各成分の利点を裏付けるものである。
関連論文リスト
- Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Multi-Task Learning for Visual Scene Understanding [7.191593674138455]
この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。
マルチタスク学習の重要な側面に対処するいくつかの手法を提案する。
その結果,マルチタスク学習の最先端にいくつかの進歩が見られた。
論文 参考訳(メタデータ) (2022-03-28T16:57:58Z) - Revisit Multimodal Meta-Learning through the Lens of Multi-Task Learning [33.19179706038397]
マルチモーダルなメタラーニングは、その設定を多様なマルチモーダルなタスク分布に一般化することで、従来の数発メタラーニングを拡張した最近の問題である。
これまでの研究では、マルチモーダル分布で訓練された1つのメタラーナーは、個々の単調分布で訓練された複数のメタラーナーを上回ることがあると主張している。
まず,マイクロレベルで異なるモードのタスク間の知識伝達を定量化する手法を提案する。
第二に、マルチタスク学習におけるハードパラメータ共有と関連する作業の新たな解釈から着想を得た、新しいマルチモーダルメタラーンを提案する。
論文 参考訳(メタデータ) (2021-10-27T06:23:45Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。