論文の概要: AWM-Fuse: Multi-Modality Image Fusion for Adverse Weather via Global and Local Text Perception
- arxiv url: http://arxiv.org/abs/2508.16881v1
- Date: Sat, 23 Aug 2025 02:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.233788
- Title: AWM-Fuse: Multi-Modality Image Fusion for Adverse Weather via Global and Local Text Perception
- Title(参考訳): AWM-Fuse:グローバルおよびローカルテキスト知覚による逆気象のための多モード画像融合
- Authors: Xilai Li, Huichun Liu, Xiaosong Li, Tao Ye, Zhenyu Kuang, Huafeng Li,
- Abstract要約: AWM-Fuseは、悪天候に対する新しい融合法である。
グローバルテキストとローカルテキストの認識によって、複数の劣化を処理するように設計されている。
- 参考スコア(独自算出の注目度): 18.397042539210055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality image fusion (MMIF) in adverse weather aims to address the loss of visual information caused by weather-related degradations, providing clearer scene representations. Although less studies have attempted to incorporate textual information to improve semantic perception, they often lack effective categorization and thorough analysis of textual content. In response, we propose AWM-Fuse, a novel fusion method for adverse weather conditions, designed to handle multiple degradations through global and local text perception within a unified, shared weight architecture. In particular, a global feature perception module leverages BLIP-produced captions to extract overall scene features and identify primary degradation types, thus promoting generalization across various adverse weather conditions. Complementing this, the local module employs detailed scene descriptions produced by ChatGPT to concentrate on specific degradation effects through concrete textual cues, thereby capturing finer details. Furthermore, textual descriptions are used to constrain the generation of fusion images, effectively steering the network learning process toward better alignment with real semantic labels, thereby promoting the learning of more meaningful visual features. Extensive experiments demonstrate that AWM-Fuse outperforms current state-of-the-art methods in complex weather conditions and downstream tasks. Our code is available at https://github.com/Feecuin/AWM-Fuse.
- Abstract(参考訳): 悪天候における多モード画像融合(MMIF)は、気象関連劣化による視覚情報の喪失に対処し、より鮮明なシーン表現を提供することを目的としている。
意味的知覚を改善するためにテキスト情報を組み込もうとする研究は少ないが、効果的な分類とテキスト内容の徹底的な分析が欠如していることが多い。
そこで本研究では,大域的および局所的なテキスト認識による多変量処理を,統一された共有重み構造内で行うことを目的とした,気象条件の新たな融合手法であるAWM-Fuseを提案する。
特に,グローバルな特徴認識モジュールはBLIPが生成するキャプションを利用して全体のシーンの特徴を抽出し,一次劣化タイプを同定し,様々な悪天候条件における一般化を促進する。
補足すると、ローカルモジュールはChatGPTによって生成された詳細なシーン記述を使用して、具体的なテキストの手がかりを通じて特定の劣化効果に集中し、より詳細な詳細をキャプチャする。
さらに、テキスト記述を用いて融合画像の生成を制限し、実際のセマンティックラベルとの整合性を高めるためにネットワーク学習プロセスを効果的に操り、より意味のある視覚的特徴の学習を促進する。
大規模な実験により、AWM-Fuseは複雑な気象条件や下流のタスクにおいて最先端の手法よりも優れていることが示された。
私たちのコードはhttps://github.com/Feecuin/AWM-Fuse.comから入手可能です。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - GLoD: Composing Global Contexts and Local Details in Image Generation [0.0]
Global-Local Diffusion (textitGLoD)は、グローバルコンテキストとローカル詳細の同時制御を可能にする新しいフレームワークである。
複数のグローバルなプロンプトとローカルなプロンプトを対応するレイヤに割り当て、ノイズを発生させるプロセスのガイドとして構成する。
本フレームワークは,グローバルなプロンプト内のオブジェクトをローカルなプロンプトで条件付けし,他の未特定なアイデンティティを保存しながら,複雑なグローバルなローカルなコンポジションを実現する。
論文 参考訳(メタデータ) (2024-04-23T18:39:57Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - All-weather Multi-Modality Image Fusion: Unified Framework and 100k Benchmark [42.49073228252726]
MMIF(Multi-modality Image fusion)は、異なる画像モダリティからの相補的な情報を組み合わせて、より包括的で客観的なシーン解釈を提供する。
既存のMMIF法では、現実の場面で異なる気象干渉に抵抗する能力が欠如しており、自律運転のような実践的な応用では利用できない。
この文脈で効率的なマルチタスクを実現するために,全天候MMIFモデルを提案する。
実世界の場面と合成シーンの両方における実験結果から,提案アルゴリズムは細部回復と多モード特徴抽出に優れることが示された。
論文 参考訳(メタデータ) (2024-02-03T09:02:46Z) - Typhoon Intensity Prediction with Vision Transformer [51.84456610977905]
台風強度を正確に予測するために「台風強度変換器(Tint)」を導入する。
Tintは、層ごとにグローバルな受容野を持つ自己認識機構を使用する。
公開されている台風ベンチマークの実験は、Tintの有効性を検証する。
論文 参考訳(メタデータ) (2023-11-28T03:11:33Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。