論文の概要: UNIV: Unified Foundation Model for Infrared and Visible Modalities
- arxiv url: http://arxiv.org/abs/2509.15642v1
- Date: Fri, 19 Sep 2025 06:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.022279
- Title: UNIV: Unified Foundation Model for Infrared and Visible Modalities
- Title(参考訳): UNIV:赤外と可視のモダリティのための統一基盤モデル
- Authors: Fangyuan Mao, Shuo Wang, Jilin Mei, Chen Min, Shun Lu, Fuyang Liu, Yu Hu,
- Abstract要約: Infrared and Visible modalities(UNIV)のための生物学的に着想を得た統一基盤モデルを提案する。
PCCLは、網膜水平細胞の側方抑制を模倣する注意誘導蒸留フレームワークである。
我々の二重知識保存機構は網膜の双極性細胞シグナルルーティングをエミュレートする。
- 参考スコア(独自算出の注目度): 12.0490466425884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The demand for joint RGB-visible and infrared perception is growing rapidly, particularly to achieve robust performance under diverse weather conditions. Although pre-trained models for RGB-visible and infrared data excel in their respective domains, they often underperform in multimodal scenarios, such as autonomous vehicles equipped with both sensors. To address this challenge, we propose a biologically inspired UNified foundation model for Infrared and Visible modalities (UNIV), featuring two key innovations. First, we introduce Patch-wise Cross-modality Contrastive Learning (PCCL), an attention-guided distillation framework that mimics retinal horizontal cells' lateral inhibition, which enables effective cross-modal feature alignment while remaining compatible with any transformer-based architecture. Second, our dual-knowledge preservation mechanism emulates the retina's bipolar cell signal routing - combining LoRA adapters (2% added parameters) with synchronous distillation to prevent catastrophic forgetting, thereby replicating the retina's photopic (cone-driven) and scotopic (rod-driven) functionality. To support cross-modal learning, we introduce the MVIP dataset, the most comprehensive visible-infrared benchmark to date. It contains 98,992 precisely aligned image pairs spanning diverse scenarios. Extensive experiments demonstrate UNIV's superior performance on infrared tasks (+1.7 mIoU in semantic segmentation and +0.7 mAP in object detection) while maintaining 99%+ of the baseline performance on visible RGB tasks. Our code is available at https://github.com/fangyuanmao/UNIV.
- Abstract(参考訳): RGBと赤外線の同時認識の需要は急速に増加しており、特に多様な気象条件下でのロバストな性能を実現している。
RGB可視データと赤外線データの事前訓練モデルはそれぞれの領域で優れているが、両センサーを備えた自動運転車のようなマルチモーダルシナリオでは性能が劣ることが多い。
この課題に対処するため、我々は2つの重要な革新を特徴とする赤外線と可視光の統一基盤モデル(UNIV)を提案する。
まず,Patch-wise Cross-modality Contrastive Learning (PCCL)を導入する。これは,網膜水平細胞の横方向の抑制を模倣した注意誘導蒸留フレームワークで,トランスフォーマベースアーキテクチャとの互換性を維持しつつ,効果的なクロスモーダル特徴アライメントを実現する。
第二に、我々の二重知識保存機構は網膜の双極性細胞シグナルルーティングをエミュレートし、LoRAアダプタ(2%の追加パラメータ)と同期蒸留を組み合わせることで、破滅的な忘れを防ぎ、網膜のフォトピック(コーン駆動)とスコトピック(ロッド駆動)機能を複製する。
クロスモーダル学習をサポートするために,これまでで最も包括的な可視赤外ベンチマークであるMVIPデータセットを導入した。
さまざまなシナリオにまたがる、正確に整列されたイメージペアが98,992個含まれている。
広範囲にわたる実験は、UNIVの赤外線タスク(セマンティックセグメンテーションにおける+1.7 mIoUとオブジェクト検出における+0.7 mAP)における優れた性能を示しながら、可視RGBタスクにおけるベースライン性能の99%以上を維持している。
私たちのコードはhttps://github.com/fangyuanmao/UNIV.comで公開されています。
関連論文リスト
- CDUPatch: Color-Driven Universal Adversarial Patch Attack for Dual-Modal Visible-Infrared Detectors [6.8163437709379835]
逆パッチは、現実世界のシナリオにおけるオブジェクト検出システムの堅牢性を評価するために広く利用されている。
我々は,CDUPatchを提案する。CDUPatchは,スケール,ビュー,シナリオにまたがる可視赤外線オブジェクト検出器に対する汎用的なクロスモーダルパッチアタックである。
対向パッチの最適色分布を学習することにより、その熱応答を操作でき、対向赤外線テクスチャを生成することができる。
論文 参考訳(メタデータ) (2025-04-15T05:46:00Z) - Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection [12.462709547836289]
可視光(RGB)や赤外線(IR)のような複数のモードを使用することで、オブジェクト検出(OD)のような予測タスクの性能を大幅に向上させることができる。
本稿では,RGB と IR のモダリティの異なる手法に取り組み,一方のモダリティと他方のモダリティのみを1つの共有ビジョンエンコーダで観測する。
本研究では、RGBとIRのモダリティを効率よく活用して、共通トランスフォーマーベースのODビジョンエンコーダをトレーニングし、モダリティの不均衡の影響に対処する方法について検討する。
論文 参考訳(メタデータ) (2024-04-29T16:42:58Z) - UniRGB-IR: A Unified Framework for Visible-Infrared Semantic Tasks via Adapter Tuning [19.510261890672165]
我々は、RGB-IRセマンティックタスクのためのスケーラブルで効率的なフレームワークUniRGB-IRを提案する。
本フレームワークは,視覚変換器(ViT)基礎モデル,マルチモーダル特徴プール(SFI)モジュール,補助特徴プール(SFI)モジュールの3つの主要コンポーネントから構成される。
各種RGB-IRセマンティックタスクの実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-26T12:21:57Z) - CycleTrans: Learning Neutral yet Discriminative Features for
Visible-Infrared Person Re-Identification [79.84912525821255]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線モダリティ間で同一人物をマッチングするタスクである。
既存のVI-ReID手法は主に、特徴識別性を犠牲にして、モダリティを越えて一般的な特徴を学習することに焦点を当てている。
ニュートラルかつ差別的な特徴学習のための新しいサイクル構築型ネットワークであるCycleTransを提案する。
論文 参考訳(メタデータ) (2022-08-21T08:41:40Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。