論文の概要: Rethinking Early-Fusion Strategies for Improved Multimodal Image Segmentation
- arxiv url: http://arxiv.org/abs/2501.10958v1
- Date: Sun, 19 Jan 2025 06:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:43.829760
- Title: Rethinking Early-Fusion Strategies for Improved Multimodal Image Segmentation
- Title(参考訳): 改良されたマルチモーダル画像分割のための早期融合戦略の再考
- Authors: Zhengwen Shen, Yulian Li, Han Zhang, Yuchen Weng, Jun Wang,
- Abstract要約: 本稿では,早期融合戦略と,効率的なRGB-Tセマンティックセマンティックセマンティックセマンティクスのトレーニングのための簡易かつ効果的な特徴クラスタリングに基づく,新しいマルチモーダル融合ネットワーク(EFNet)を提案する。
提案手法の有効性を異なるデータセットで検証し,より低いパラメータと計算量で従来の最先端手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 7.757018983487103
- License:
- Abstract: RGB and thermal image fusion have great potential to exhibit improved semantic segmentation in low-illumination conditions. Existing methods typically employ a two-branch encoder framework for multimodal feature extraction and design complicated feature fusion strategies to achieve feature extraction and fusion for multimodal semantic segmentation. However, these methods require massive parameter updates and computational effort during the feature extraction and fusion. To address this issue, we propose a novel multimodal fusion network (EFNet) based on an early fusion strategy and a simple but effective feature clustering for training efficient RGB-T semantic segmentation. In addition, we also propose a lightweight and efficient multi-scale feature aggregation decoder based on Euclidean distance. We validate the effectiveness of our method on different datasets and outperform previous state-of-the-art methods with lower parameters and computation.
- Abstract(参考訳): RGBと熱画像融合は、低照度条件下でのセマンティックセグメンテーションの改善を示す大きな可能性を秘めている。
既存の手法では、マルチモーダルな特徴抽出のための2分岐エンコーダフレームワークと、マルチモーダルなセマンティックセグメンテーションのための特徴抽出と融合を実現するための複雑な特徴融合戦略が一般的である。
しかし,これらの手法には,特徴抽出と融合の際の膨大なパラメータ更新と計算作業が必要である。
そこで本研究では,早期融合戦略と,効率的なRGB-Tセマンティックセマンティックセマンティックセグメンテーションを学習するためのシンプルな機能クラスタリングに基づく,新しいマルチモーダル融合ネットワーク(EFNet)を提案する。
さらに,ユークリッド距離に基づく軽量かつ効率的なマルチスケール特徴集約デコーダを提案する。
提案手法の有効性を異なるデータセットで検証し,より低いパラメータと計算量で従来の最先端手法より優れていることを示す。
関連論文リスト
- MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。
本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。
本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文 参考訳(メタデータ) (2024-12-22T06:12:03Z) - Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-16T03:19:59Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - A Comparative Assessment of Multi-view fusion learning for Crop
Classification [3.883984493622102]
この研究は、CropHarvestデータセットにおける作物分類のための異なる融合戦略を評価する。
本稿では,3つの異なるデータセットに対する多視点融合法の比較を行い,テスト領域によって異なる手法が最高の性能を得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T08:03:58Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - MPI: Multi-receptive and Parallel Integration for Salient Object
Detection [17.32228882721628]
深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠である。
本稿では,MPIと呼ばれる新しい手法を提案する。
提案手法は,異なる評価基準下での最先端手法よりも優れる。
論文 参考訳(メタデータ) (2021-08-08T12:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。