論文の概要: Multimodal Informative ViT: Information Aggregation and Distribution for
Hyperspectral and LiDAR Classification
- arxiv url: http://arxiv.org/abs/2401.03179v1
- Date: Sat, 6 Jan 2024 09:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:59:48.161160
- Title: Multimodal Informative ViT: Information Aggregation and Distribution for
Hyperspectral and LiDAR Classification
- Title(参考訳): マルチモーダルインフォーマティブ ViT:ハイパースペクトルとLiDAR分類のための情報集約と分布
- Authors: Jiaqing Zhang, Jie Lei, Weiying Xie, Geng Yang, Daixun Li, Yunsong Li,
Karim Seghouane
- Abstract要約: Multimodal Informative Vit (MIVit) は革新的な情報集約配信機構を備えたシステムである。
MIVitは、各モードの分離されたおよび融合された特徴の実験的分布における冗長性を減少させる。
以上の結果から,MIVitの双方向凝集分配機構は極めて有効であることが示唆された。
- 参考スコア(独自算出の注目度): 23.833937249511262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multimodal land cover classification (MLCC), a common challenge is the
redundancy in data distribution, where irrelevant information from multiple
modalities can hinder the effective integration of their unique features. To
tackle this, we introduce the Multimodal Informative Vit (MIVit), a system with
an innovative information aggregate-distributing mechanism. This approach
redefines redundancy levels and integrates performance-aware elements into the
fused representation, facilitating the learning of semantics in both forward
and backward directions. MIVit stands out by significantly reducing redundancy
in the empirical distribution of each modality's separate and fused features.
It employs oriented attention fusion (OAF) for extracting shallow local
features across modalities in horizontal and vertical dimensions, and a
Transformer feature extractor for extracting deep global features through
long-range attention. We also propose an information aggregation constraint
(IAC) based on mutual information, designed to remove redundant information and
preserve complementary information within embedded features. Additionally, the
information distribution flow (IDF) in MIVit enhances performance-awareness by
distributing global classification information across different modalities'
feature maps. This architecture also addresses missing modality challenges with
lightweight independent modality classifiers, reducing the computational load
typically associated with Transformers. Our results show that MIVit's
bidirectional aggregate-distributing mechanism between modalities is highly
effective, achieving an average overall accuracy of 95.56% across three
multimodal datasets. This performance surpasses current state-of-the-art
methods in MLCC. The code for MIVit is accessible at
https://github.com/icey-zhang/MIViT.
- Abstract(参考訳): マルチモーダル土地被覆分類(MLCC、Multimodal Land Cover Classification)において、データ分散の冗長性は共通の課題であり、複数のモダリティから無関係な情報がそれらの特徴の効果的な統合を妨げる。
そこで本研究では,革新的な情報集約分散機構を備えたシステムであるmivit(multimodal informative vit)を提案する。
このアプローチは冗長性レベルを再定義し、パフォーマンスアウェアな要素を融合表現に統合し、前方と後方の両方でセマンティクスの学習を容易にする。
MIVitは、各モードの分離されたおよび融合された特徴の実験的分布における冗長性を著しく減少させることで際立っている。
水平・垂直方向の浅部局所特徴抽出には指向性アテンションフュージョン(OAF)と、長距離の注意を通して深部グローバル特徴を抽出するトランスフォーマー特徴抽出器を用いる。
また,相互情報に基づく情報集約制約(IAC)を提案する。
さらに,mivitにおける情報配信フロー(idf)は,異なるモダリティの特徴マップにまたがるグローバル分類情報を分散することにより,性能認識性を高める。
このアーキテクチャはまた、軽量な独立モダリティ分類器のモダリティ問題に対処し、典型的にはトランスフォーマーに関連する計算負荷を削減する。
以上の結果から,mivitの2方向アグリゲート分散機構は,3つのマルチモーダルデータセットにおいて95.56%の平均精度を達成した。
この性能はMLCCの最先端手法を上回る。
MIVitのコードはhttps://github.com/icey-zhang/MIViTでアクセスできる。
関連論文リスト
- WRIM-Net: Wide-Ranging Information Mining Network for Visible-Infrared Person Re-Identification [8.88666439137662]
本稿では,多次元インタラクティブ情報マイニング(MIIM)モジュールと補助情報に基づくコントラスト学習(AICL)アプローチを主とするワイドランキング情報マイニングネットワーク(WRIM-Net)を紹介する。
計算複雑性の低い設計により、別々のMIIMを浅い層に配置することができ、ネットワークは特定のモダリティの多重次元情報をよりよくマイニングすることができる。
我々は、よく知られたSYSU-MM01とRegDBデータセットだけでなく、最新の大規模クロスモダリティLLMデータセットにも広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-20T08:06:16Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Multi-scale Semantic Correlation Mining for Visible-Infrared Person
Re-Identification [19.49945790485511]
MSCMNetは、複数のスケールでセマンティック機能を包括的に活用するために提案されている。
特徴抽出において、モダリティ情報損失を可能な限り小さくする。
SYSU-MM01、RegDB、 LLCMデータセットの大規模な実験により、提案したMSCMNetが最も精度が高いことを示す。
論文 参考訳(メタデータ) (2023-11-24T10:23:57Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations [27.855467591358018]
マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
論文 参考訳(メタデータ) (2022-10-31T16:14:18Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Multi-modal land cover mapping of remote sensing images using pyramid
attention and gated fusion networks [20.66034058363032]
本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。
PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。
GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
論文 参考訳(メタデータ) (2021-11-06T10:01:01Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。