論文の概要: Generative Model-Based Fusion for Improved Few-Shot Semantic Segmentation of Infrared Images
- arxiv url: http://arxiv.org/abs/2412.05341v1
- Date: Fri, 06 Dec 2024 05:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:54.179484
- Title: Generative Model-Based Fusion for Improved Few-Shot Semantic Segmentation of Infrared Images
- Title(参考訳): 赤外線画像のFew-Shot Semantic Segmentationの改善のための生成モデルベース融合
- Authors: Junno Yun, Mehmet Akçakaya,
- Abstract要約: 赤外線(IR)イメージングは、自律運転、火災安全、防衛用途など、様々なシナリオで一般的に用いられている。
Few-shot segmentation (FSS)は、いくつかのラベル付きサポートサンプルを使用してクエリイメージをセグメント化することで、これらの問題を解決するためのフレームワークを提供する。
本研究では、生成モデリングと融合技術を用いて、IR画像のFSSのための新しい戦略を開発する。
- 参考スコア(独自算出の注目度): 2.8237889121096034
- License:
- Abstract: Infrared (IR) imaging is commonly used in various scenarios, including autonomous driving, fire safety and defense applications. Thus, semantic segmentation of such images is of great interest. However, this task faces several challenges, including data scarcity, differing contrast and input channel number compared to natural images, and emergence of classes not represented in databases in certain scenarios, such as defense applications. Few-shot segmentation (FSS) provides a framework to overcome these issues by segmenting query images using a few labeled support samples. However, existing FSS models for IR images require paired visible RGB images, which is a major limitation since acquiring such paired data is difficult or impossible in some applications. In this work, we develop new strategies for FSS of IR images by using generative modeling and fusion techniques. To this end, we propose to synthesize auxiliary data to provide additional channel information to complement the limited contrast in the IR images, as well as IR data synthesis for data augmentation. Here, the former helps the FSS model to better capture the relationship between the support and query sets, while the latter addresses the issue of data scarcity. Finally, to further improve the former aspect, we propose a novel fusion ensemble module for integrating the two different modalities. Our methods are evaluated on different IR datasets, and improve upon the state-of-the-art (SOTA) FSS models.
- Abstract(参考訳): 赤外線(IR)イメージングは、自律運転、火災安全、防衛用途など、様々なシナリオで一般的に用いられている。
したがって、そのような画像のセマンティックセグメンテーションは非常に興味深い。
しかし,この課題は,データ不足,コントラストと入力チャネル数の違い,データベースに表現されていないクラスが出現するなど,いくつかの課題に直面している。
Few-shot segmentation (FSS)は、いくつかのラベル付きサポートサンプルを使用してクエリイメージをセグメント化することで、これらの問題を解決するためのフレームワークを提供する。
しかし、既存のIR画像のためのFSSモデルは、ペアの可視RGB画像を必要とするため、いくつかのアプリケーションではそのようなペアの取得が困難または不可能であるため、大きな制限となる。
本研究では、生成モデリングと融合技術を用いて、IR画像のFSSのための新しい戦略を開発する。
そこで本研究では、IR画像の限られたコントラストを補完する追加チャネル情報を提供する補助データと、データ拡張のためのIRデータ合成を提案する。
前者はFSSモデルでサポートとクエリセットの関係をよりよく把握し、後者はデータ不足の問題に対処する。
最後に、前者の側面をさらに改善するため、2つの異なるモダリティを統合するための新しい融合アンサンブルモジュールを提案する。
提案手法は異なるIRデータセットを用いて評価し,SOTA (State-of-the-art) FSSモデルを改善する。
関連論文リスト
- Text-Guided Coarse-to-Fine Fusion Network for Robust Remote Sensing Visual Question Answering [26.8129265632403]
現在のリモートセンシング視覚質問応答(RSVQA)法は,光学センサの撮像機構によって制限されている。
RSVQAの性能を向上させるために,テキスト誘導型粗結合ネットワーク(TGFNet)を提案する。
我々は、光学SAR RSVQA法を評価するための最初の大規模ベンチマークデータセットを作成する。
論文 参考訳(メタデータ) (2024-11-24T09:48:03Z) - LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution [1.747623282473278]
複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。
熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
論文 参考訳(メタデータ) (2024-11-12T12:23:19Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - DifFSS: Diffusion Model for Few-Shot Semantic Segmentation [24.497112957831195]
本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。
新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-07-03T06:33:49Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。
我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。
実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文 参考訳(メタデータ) (2021-01-26T18:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。