論文の概要: Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation
- arxiv url: http://arxiv.org/abs/2308.02097v1
- Date: Fri, 4 Aug 2023 01:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 14:11:19.209055
- Title: Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation
- Title(参考訳): 画像融合とセグメンテーションのためのマルチインタラクティブな特徴学習とフルタイムマルチモーダリティベンチマーク
- Authors: Jinyuan Liu, Zhu Liu, Guanyao Wu, Long Ma, Risheng Liu, Wei Zhong,
Zhongxuan Luo, Xin Fan
- Abstract要約: 多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 66.15246197473897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality image fusion and segmentation play a vital role in autonomous
driving and robotic operation. Early efforts focus on boosting the performance
for only one task, \emph{e.g.,} fusion or segmentation, making it hard to
reach~`Best of Both Worlds'. To overcome this issue, in this paper, we propose
a \textbf{M}ulti-\textbf{i}nteractive \textbf{F}eature learning architecture
for image fusion and \textbf{Seg}mentation, namely SegMiF, and exploit
dual-task correlation to promote the performance of both tasks. The SegMiF is
of a cascade structure, containing a fusion sub-network and a commonly used
segmentation sub-network. By slickly bridging intermediate features between two
components, the knowledge learned from the segmentation task can effectively
assist the fusion task. Also, the benefited fusion network supports the
segmentation one to perform more pretentiously. Besides, a hierarchical
interactive attention block is established to ensure fine-grained mapping of
all the vital information between two tasks, so that the modality/semantic
features can be fully mutual-interactive. In addition, a dynamic weight factor
is introduced to automatically adjust the corresponding weights of each task,
which can balance the interactive feature correspondence and break through the
limitation of laborious tuning. Furthermore, we construct a smart multi-wave
binocular imaging system and collect a full-time multi-modality benchmark with
15 annotated pixel-level categories for image fusion and segmentation.
Extensive experiments on several public datasets and our benchmark demonstrate
that the proposed method outputs visually appealing fused images and perform
averagely $7.66\%$ higher segmentation mIoU in the real-world scene than the
state-of-the-art approaches. The source code and benchmark are available at
\url{https://github.com/JinyuanLiu-CV/SegMiF}.
- Abstract(参考訳): マルチモダリティ画像融合とセグメンテーションは、自律運転とロボット操作において重要な役割を果たす。
初期の取り組みでは、1つのタスク(例えば、融合やセグメンテーション)のパフォーマンス向上に重点を置いており、両者の最高のところに到達するのが困難だった。
本稿では,この課題を克服するために,画像融合のための \textbf{m}ulti-\textbf{i}nteractive \textbf{f}eature learning architecture,すなわち segmif を提案する。
SegMiFはカスケード構造であり、融合サブネットワークと一般的に使用されるセグメンテーションサブネットワークを含んでいる。
2つのコンポーネント間の中間機能を巧みにブリッジすることで、セグメンテーションタスクから学んだ知識は融合タスクを効果的に支援することができる。
また、有利な融合ネットワークはセグメンテーションをサポートし、より早く実行する。
さらに、2つのタスク間のすべての重要な情報のきめ細かいマッピングを確保するために、階層的対話型アテンションブロックが確立され、モダリティ/セマンティックな特徴が相互に完全に相互に作用できる。
さらに、動的重み係数を導入し、各タスクの対応する重みを自動的に調整し、インタラクティブな特徴対応のバランスをとり、手間のかかるチューニングの制限を破ることができる。
さらに、スマートなマルチウェーブ双眼鏡イメージングシステムを構築し、画像融合とセグメンテーションのための15の注釈付き画素レベルカテゴリを持つフルタイムマルチモーダリティベンチマークを収集する。
いくつかのパブリックデータセットに関する広範囲な実験とベンチマークにより、提案手法は視覚に訴える画像を出力するとともに、最先端のアプローチよりも現実世界のシーンで平均7.66\%高いセグメンテーションミウを実行することが示された。
ソースコードとベンチマークは \url{https://github.com/jinyuanliu-cv/segmif} で入手できる。
関連論文リスト
- A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合および医用画像融合タスクにおける最先端手法と比較して,本手法は競争力のある結果を得た。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven
Image Fusion Network [2.7387720378113554]
我々は、TSJNetと呼ばれるターゲットおよびセマンティック・アウェアネス駆動型核融合ネットワークを導入する。
一連の構造に配置された核融合、検出、セグメンテーションを含む。
視覚的に快く融合した結果を生成することができ、それぞれ2.84%と7.47%のオブジェクト検出とセグメンテーションのmAP @0.5とmIoUが平均的に増加する。
論文 参考訳(メタデータ) (2024-02-02T08:37:38Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-05-11T10:55:34Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - Few-shot Segmentation with Optimal Transport Matching and Message Flow [50.9853556696858]
サポート情報を完全に活用するためには、少数ショットのセマンティックセマンティックセグメンテーションが不可欠である。
本稿では,最適輸送マッチングモジュールを備えた通信マッチングネットワーク(CMNet)を提案する。
PASCAL VOC 2012、MS COCO、FSS-1000データセットによる実験により、我々のネットワークは最新の数ショットセグメンテーション性能を新たに達成した。
論文 参考訳(メタデータ) (2021-08-19T06:26:11Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。