論文の概要: DuGI-MAE: Improving Infrared Mask Autoencoders via Dual-Domain Guidance
- arxiv url: http://arxiv.org/abs/2512.04511v1
- Date: Thu, 04 Dec 2025 06:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.028848
- Title: DuGI-MAE: Improving Infrared Mask Autoencoders via Dual-Domain Guidance
- Title(参考訳): DuGI-MAE:デュアルドメイン誘導による赤外線マスクオートエンコーダの改善
- Authors: Yinghui Xing, Xiaoting Su, Shizhou Zhang, Donghao Chu, Di Xu,
- Abstract要約: 本稿では,MAE(DuGI-MAE)に基づくデュアルドメイン誘導赤外線基盤モデルを提案する。
まず,トークンエントロピーに基づく決定論的マスキング戦略を設計し,情報性を高めるために高エントロピートークンのみを復元する。
次に、Dual-Domain Guidance (DDG)モジュールを導入し、同時にグローバルトークンの関係をキャプチャし、赤外線画像に存在する非一様背景雑音を適応的にフィルタリングする。
Inf-590Kで事前訓練されたDuGI-MAEは、赤外線オブジェクト検出、セマンティックセグメンテーション、小さなターゲット検出など、さまざまな下流タスクにまたがる強力な一般化機能を示す
- 参考スコア(独自算出の注目度): 20.484726951373602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared imaging plays a critical role in low-light and adverse weather conditions. However, due to the distinct characteristics of infrared images, existing foundation models such as Masked Autoencoder (MAE) trained on visible data perform suboptimal in infrared image interpretation tasks. To bridge this gap, an infrared foundation model known as InfMAE was developed and pre-trained on large-scale infrared datasets. Despite its effectiveness, InfMAE still faces several limitations, including the omission of informative tokens, insufficient modeling of global associations, and neglect of non-uniform noise. In this paper, we propose a Dual-domain Guided Infrared foundation model based on MAE (DuGI-MAE). First, we design a deterministic masking strategy based on token entropy, preserving only high-entropy tokens for reconstruction to enhance informativeness. Next, we introduce a Dual-Domain Guidance (DDG) module, which simultaneously captures global token relationships and adaptively filters non-uniform background noise commonly present in infrared imagery. To facilitate large-scale pretraining, we construct Inf-590K, a comprehensive infrared image dataset encompassing diverse scenes, various target types, and multiple spatial resolutions. Pretrained on Inf-590K, DuGI-MAE demonstrates strong generalization capabilities across various downstream tasks, including infrared object detection, semantic segmentation, and small target detection. Experimental results validate the superiority of the proposed method over both supervised and self-supervised comparison methods. Our code is available in the supplementary material.
- Abstract(参考訳): 赤外線イメージングは、低照度および悪天候条件において重要な役割を果たす。
しかし、赤外線画像の特徴が異なるため、可視データに基づいて訓練されたMasked Autoencoder (MAE)のような既存の基礎モデルは、赤外線画像解釈タスクにおいて準最適である。
このギャップを埋めるために、InfMAEとして知られる赤外線基盤モデルが開発され、大規模な赤外線データセットで事前訓練された。
有効性にもかかわらず、InfMAEは情報トークンの省略、グローバルアソシエーションの不十分なモデリング、不均一ノイズの無視など、いくつかの制限に直面している。
本稿では,MAE(DuGI-MAE)に基づくデュアルドメイン誘導赤外線基盤モデルを提案する。
まず,トークンエントロピーに基づく決定論的マスキング戦略を設計し,情報性を高めるために高エントロピートークンのみを復元する。
次に、Dual-Domain Guidance (DDG)モジュールを導入し、同時にグローバルトークンの関係をキャプチャし、赤外線画像に存在する非一様背景雑音を適応的にフィルタリングする。
大規模な事前トレーニングを容易にするため,多様なシーン,多様なターゲットタイプ,複数空間解像度を含む包括的赤外線画像データセットであるInf-590Kを構築した。
Inf-590Kで事前訓練されたDuGI-MAEは、赤外線オブジェクト検出、セマンティックセグメンテーション、小さなターゲット検出など、さまざまな下流タスクにまたがる強力な一般化機能を示す。
提案手法は, 教師付き比較法と自己監督型比較法に比較して, 優位性を検証した。
私たちのコードは補足資料で利用可能です。
関連論文リスト
- IrisNet: Infrared Image Status Awareness Meta Decoder for Infrared Small Targets Detection [92.56025546608699]
IrisNetは、入力赤外線画像ステータスに検出戦略を適用する、新しいメタ学習フレームワークである。
提案手法は,赤外線画像特徴量とデコーダパラメータ全体の動的マッピングを確立する。
NUDT-SIRST、NUAA-SIRST、IRSTD-1Kデータセットの実験は、我々のIrisNetの優位性を示している。
論文 参考訳(メタデータ) (2025-11-25T13:53:54Z) - SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [65.80051636480836]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。
このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。
SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-07T10:58:52Z) - MTSIC: Multi-stage Transformer-based GAN for Spectral Infrared Image Colorization [26.33768545616346]
既存のカラー化手法は、スペクトル情報に制限があり、特徴抽出能力が不十分なシングルバンド画像に依存している。
本稿では、スペクトル情報を統合し、赤外線画像のカラー化を強化するために、GAN(Generative Adversarial Network)ベースのフレームワークを提案する。
実験の結果,提案手法は従来の手法よりも優れ,赤外線画像の視覚的品質を効果的に向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-21T01:42:25Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - DifIISR: A Diffusion Model with Gradient Guidance for Infrared Image Super-Resolution [32.53713932204663]
DifIISRは、視覚品質と知覚性能に最適化された赤外線画像超解像拡散モデルである。
我々は、視力を維持するために赤外線熱スペクトル分布制御を導入する。
下流の視覚課題に対する知覚的ガイダンスとして,様々な視覚基盤モデルを組み込んだ。
論文 参考訳(メタデータ) (2025-03-03T05:20:57Z) - IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection [55.554484379021524]
Infrared Small Target Detection (IRSTD) タスクは、自然画像と赤外線画像の間に顕著な領域ギャップがあるため、満足度の高い性能を達成するには不十分である。
IRSTDのためのIRSAMモデルを提案する。これはSAMのエンコーダデコーダアーキテクチャを改善し、赤外線小物体の特徴表現をより良く学習する。
論文 参考訳(メタデータ) (2024-07-10T10:17:57Z) - InfMAE: A Foundation Model in the Infrared Modality [38.23685358198649]
本稿では,赤外線モダリティの基礎モデルであるInfMAEを提案する。
Inf30と呼ばれる赤外線データセットをリリースし、自己教師付き学習のための大規模データ不足の問題に対処する。
また、赤外線画像に適した情報認識マスキング戦略を設計する。
論文 参考訳(メタデータ) (2024-02-01T08:02:10Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。