Fugu-MT 論文翻訳(概要): Rethinking Early-Fusion Strategies for Improved Multimodal Image Segmentation

論文の概要: Rethinking Early-Fusion Strategies for Improved Multimodal Image Segmentation

arxiv url: http://arxiv.org/abs/2501.10958v1
Date: Sun, 19 Jan 2025 06:16:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.218182
Title: Rethinking Early-Fusion Strategies for Improved Multimodal Image Segmentation
Title（参考訳）: 改良されたマルチモーダル画像分割のための早期融合戦略の再考
Authors: Zhengwen Shen, Yulian Li, Han Zhang, Yuchen Weng, Jun Wang,
Abstract要約: 本稿では,早期融合戦略と,効率的なRGB-Tセマンティックセマンティックセマンティックセマンティクスのトレーニングのための簡易かつ効果的な特徴クラスタリングに基づく,新しいマルチモーダル融合ネットワーク(EFNet)を提案する。提案手法の有効性を異なるデータセットで検証し,より低いパラメータと計算量で従来の最先端手法より優れていることを示す。
参考スコア（独自算出の注目度）: 7.757018983487103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: RGB and thermal image fusion have great potential to exhibit improved semantic segmentation in low-illumination conditions. Existing methods typically employ a two-branch encoder framework for multimodal feature extraction and design complicated feature fusion strategies to achieve feature extraction and fusion for multimodal semantic segmentation. However, these methods require massive parameter updates and computational effort during the feature extraction and fusion. To address this issue, we propose a novel multimodal fusion network (EFNet) based on an early fusion strategy and a simple but effective feature clustering for training efficient RGB-T semantic segmentation. In addition, we also propose a lightweight and efficient multi-scale feature aggregation decoder based on Euclidean distance. We validate the effectiveness of our method on different datasets and outperform previous state-of-the-art methods with lower parameters and computation.
Abstract（参考訳）: RGBと熱画像融合は、低照度条件下でのセマンティックセグメンテーションの改善を示す大きな可能性を秘めている。既存の手法では、マルチモーダルな特徴抽出のための2分岐エンコーダフレームワークと、マルチモーダルなセマンティックセグメンテーションのための特徴抽出と融合を実現するための複雑な特徴融合戦略が一般的である。しかし,これらの手法には,特徴抽出と融合の際の膨大なパラメータ更新と計算作業が必要である。そこで本研究では,早期融合戦略と,効率的なRGB-Tセマンティックセマンティックセマンティックセグメンテーションを学習するためのシンプルな機能クラスタリングに基づく,新しいマルチモーダル融合ネットワーク(EFNet)を提案する。さらに,ユークリッド距離に基づく軽量かつ効率的なマルチスケール特徴集約デコーダを提案する。提案手法の有効性を異なるデータセットで検証し,より低いパラメータと計算量で従来の最先端手法より優れていることを示す。

関連論文リスト

Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation [24.914583619821585]
超高解像度(UHR)衛星画像のセマンティックセグメンテーションのための新しいフレームワークFを紹介する。提案手法は, セマンティックリオーダーと再サンプリングに基づくデータ拡張戦略と並行して, マルチスケールの収穫手法を組み込むことにより, ロングテールクラス分布に対処する。 URUR, GID, FBPデータセットを用いた実験では,mIoUが3.33%, 0.66%, 0.98%向上し, 最先端性能が得られた。
論文参考訳（メタデータ） (2025-04-28T14:39:59Z)
MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文参考訳（メタデータ） (2024-12-22T06:12:03Z)
Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-16T03:19:59Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation [4.54656749337919]
AsymFormerは、RGB-Dマルチモーダル情報を用いたリアルタイムセマンティックセグメンテーションの精度を向上させる新しいネットワークである。 AsymFormerはマルチモーダルな特徴抽出に非対称なバックボーンを使用し、冗長なパラメータを削減している。 AsymFormerは高い精度と効率のバランスを取ることができる。
論文参考訳（メタデータ） (2023-09-25T11:57:16Z)
ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文参考訳（メタデータ） (2023-08-15T00:02:10Z)
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-04T01:03:58Z)
Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文参考訳（メタデータ） (2023-05-20T17:01:52Z)
LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文参考訳（メタデータ） (2023-04-11T12:11:23Z)
Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。 3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-30T13:57:21Z)
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。比較すると,本手法はより汎用的で有効である。
論文参考訳（メタデータ） (2023-03-11T08:42:40Z)
Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文参考訳（メタデータ） (2021-08-11T03:42:13Z)
MPI: Multi-receptive and Parallel Integration for Salient Object Detection [17.32228882721628]
深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠である。本稿では,MPIと呼ばれる新しい手法を提案する。提案手法は,異なる評価基準下での最先端手法よりも優れる。
論文参考訳（メタデータ） (2021-08-08T12:01:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。