論文の概要: InfMAE: A Foundation Model in the Infrared Modality
- arxiv url: http://arxiv.org/abs/2402.00407v2
- Date: Sat, 14 Sep 2024 14:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:05:43.320639
- Title: InfMAE: A Foundation Model in the Infrared Modality
- Title(参考訳): InfMAE:赤外線モダリティの基礎モデル
- Authors: Fangcen Liu, Chenqiang Gao, Yaming Zhang, Junjie Guo, Jinhao Wang, Deyu Meng,
- Abstract要約: 本稿では,赤外線モダリティの基礎モデルであるInfMAEを提案する。
Inf30と呼ばれる赤外線データセットをリリースし、自己教師付き学習のための大規模データ不足の問題に対処する。
また、赤外線画像に適した情報認識マスキング戦略を設計する。
- 参考スコア(独自算出の注目度): 38.23685358198649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the foundation models have swept the computer vision field and facilitated the development of various tasks within different modalities. However, it remains an open question on how to design an infrared foundation model. In this paper, we propose InfMAE, a foundation model in infrared modality. We release an infrared dataset, called Inf30 to address the problem of lacking large-scale data for self-supervised learning in the infrared vision community. Besides, we design an information-aware masking strategy, which is suitable for infrared images. This masking strategy allows for a greater emphasis on the regions with richer information in infrared images during the self-supervised learning process, which is conducive to learning the generalized representation. In addition, we adopt a multi-scale encoder to enhance the performance of the pre-trained encoders in downstream tasks. Finally, based on the fact that infrared images do not have a lot of details and texture information, we design an infrared decoder module, which further improves the performance of downstream tasks. Extensive experiments show that our proposed method InfMAE outperforms other supervised methods and self-supervised learning methods in three downstream tasks.
- Abstract(参考訳): 近年、基礎モデルはコンピュータビジョンの分野を席巻し、様々なモードで様々なタスクの開発を促進している。
しかし、赤外線ファンデーションモデルをどのように設計するかについては、未解決の疑問が残る。
本稿では,赤外線モダリティの基礎モデルであるInfMAEを提案する。
我々は、赤外線ビジョンコミュニティにおける自己教師型学習のための大規模なデータ不足に対処するため、Inf30と呼ばれる赤外線データセットをリリースする。
さらに、赤外線画像に適した情報認識マスキング戦略を設計する。
このマスキング戦略により、一般化された表現の学習に寄与する自己教師付き学習過程において、赤外線画像にリッチな情報を持つ領域をより強調することができる。
さらに,ダウンストリームタスクにおける事前学習エンコーダの性能を向上させるために,マルチスケールエンコーダを採用した。
最後に、赤外線画像には細部やテクスチャ情報が多くないという事実に基づいて、下流タスクの性能をさらに向上させる赤外線デコーダモジュールを設計する。
実験の結果,提案手法は3つの下流タスクにおいて,他の教師付き手法や自己教師付き学習方法よりも優れていた。
関連論文リスト
- IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection [55.554484379021524]
Infrared Small Target Detection (IRSTD) タスクは、自然画像と赤外線画像の間に顕著な領域ギャップがあるため、満足度の高い性能を達成するには不十分である。
IRSTDのためのIRSAMモデルを提案する。これはSAMのエンコーダデコーダアーキテクチャを改善し、赤外線小物体の特徴表現をより良く学習する。
論文 参考訳(メタデータ) (2024-07-10T10:17:57Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - VIFNet: An End-to-end Visible-Infrared Fusion Network for Image Dehazing [13.777195433138179]
本研究の目的は、画像デハージングのための可視赤外線融合ネットワークを設計することである。
特に,より空間的・限界的な情報を復元するための多スケール深層構造特徴抽出(DSFE)モジュールを提案する。
これを検証するために,AirSimシミュレーションプラットフォームに基づくAirSim-VIDと呼ばれる可視赤外マルチモーダルデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-11T14:31:11Z) - HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection [16.92362922379821]
赤外線小物体検出性能を向上させるための深層学習法を提案する。
本発明の方法は、PPAモジュール、DASIモジュール、MDCRモジュールを含む。
論文 参考訳(メタデータ) (2024-03-16T02:45:42Z) - Fusion of Infrared and Visible Images based on Spatial-Channel
Attentional Mechanism [3.388001684915793]
Infrared and visible image fusion (IVIF) の革新的アプローチであるAMFusionNetを提案する。
可視光源からのテクスチャ特徴と赤外線画像からの熱的詳細を同化することにより,包括的情報に富んだ画像を生成する。
提案手法は, 品質と量の観点から, 最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-25T21:05:11Z) - Interactive Feature Embedding for Infrared and Visible Image Fusion [94.77188069479155]
赤外線と可視画像の融合のための一般的なディープラーニングに基づく手法は、情報保持のための教師なしのメカニズムに依存している。
赤外線および可視画像融合のための自己教師付き学習フレームワークに,インタラクティブな新たな特徴埋め込みを提案する。
論文 参考訳(メタデータ) (2022-11-09T13:34:42Z) - AR-NeRF: Unsupervised Learning of Depth and Defocus Effects from Natural
Images with Aperture Rendering Neural Radiance Fields [23.92262483956057]
データ収集の利点から、完全に教師なしの3D表現学習が注目を集めている。
視点とデフォーカスの手がかりを統一的に活用できる開口描画型NeRF(AR-NeRF)を提案する。
深度とデフォーカス効果の教師なし学習におけるAR-NeRFの有用性を実証する。
論文 参考訳(メタデータ) (2022-06-13T12:41:59Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - Domain Adversarial Training for Infrared-colour Person Re-Identification [19.852463786440122]
人物再識別(re-ID)はコンピュータビジョンにおける非常に活発な研究分野である。
ほとんどの方法は色画像間のマッチングのタスクにのみ対処する。
暗い環境では、CCTVカメラは赤外線イメージングに切り替える。
そこで本稿では,人物の微妙でユニークな署名に焦点をあてる部分特徴抽出ネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。