論文の概要: SAGA: Semantic-Aware Gray color Augmentation for Visible-to-Thermal Domain Adaptation across Multi-View Drone and Ground-Based Vision Systems
- arxiv url: http://arxiv.org/abs/2504.15728v1
- Date: Tue, 22 Apr 2025 09:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 21:15:24.616022
- Title: SAGA: Semantic-Aware Gray color Augmentation for Visible-to-Thermal Domain Adaptation across Multi-View Drone and Ground-Based Vision Systems
- Title(参考訳): SAGA:多視点ドローンと地上視システムを用いた可視・熱領域適応のための意味認識グレーカラー強化
- Authors: Manjunath D, Aniruddh Sikdar, Prajwal Gurunath, Sumanth Udupa, Suresh Sundaram,
- Abstract要約: ドメイン適応型熱オブジェクト検出は、可視(RGB)から熱(IR)への適応を促進する上で重要な役割を果たす。
色やテクスチャの手がかりの欠如など、赤外線画像の固有の制限は、RGB訓練されたモデルに課題をもたらす。
本稿では,カラーバイアスを緩和し,領域ギャップを埋めるための新しい戦略であるセマンティック・アウェア・グレイカラー拡張(SAGA)を提案する。
- 参考スコア(独自算出の注目度): 1.891522135443594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Domain-adaptive thermal object detection plays a key role in facilitating visible (RGB)-to-thermal (IR) adaptation by reducing the need for co-registered image pairs and minimizing reliance on large annotated IR datasets. However, inherent limitations of IR images, such as the lack of color and texture cues, pose challenges for RGB-trained models, leading to increased false positives and poor-quality pseudo-labels. To address this, we propose Semantic-Aware Gray color Augmentation (SAGA), a novel strategy for mitigating color bias and bridging the domain gap by extracting object-level features relevant to IR images. Additionally, to validate the proposed SAGA for drone imagery, we introduce the IndraEye, a multi-sensor (RGB-IR) dataset designed for diverse applications. The dataset contains 5,612 images with 145,666 instances, captured from diverse angles, altitudes, backgrounds, and times of day, offering valuable opportunities for multimodal learning, domain adaptation for object detection and segmentation, and exploration of sensor-specific strengths and weaknesses. IndraEye aims to enhance the development of more robust and accurate aerial perception systems, especially in challenging environments. Experimental results show that SAGA significantly improves RGB-to-IR adaptation for autonomous driving and IndraEye dataset, achieving consistent performance gains of +0.4% to +7.6% (mAP) when integrated with state-of-the-art domain adaptation techniques. The dataset and codes are available at https://github.com/airliisc/IndraEye.
- Abstract(参考訳): ドメイン適応型熱オブジェクト検出は、共同登録された画像ペアの必要性を減らし、大きなアノテートされたIRデータセットへの依存を最小限に抑えることにより、可視(RGB)から熱(IR)への適応を促進する上で重要な役割を果たす。
しかし、色やテクスチャの手がかりの欠如など、赤外線画像の固有の制限は、RGB訓練されたモデルに課題をもたらし、偽陽性や質の悪い偽ラベルが増大する。
そこで本研究では,カラーバイアスを緩和し,赤外線画像に関連するオブジェクトレベルの特徴を抽出し,領域ギャップを埋める新たな戦略であるSemantic-Aware Gray Color Augmentation (SAGA)を提案する。
さらに、ドローン画像のSAGAを検証するために、多様なアプリケーション用に設計されたマルチセンサー(RGB-IR)データセットであるIndraEyeを導入する。
データセットには5,612の画像と145,666のインスタンスが含まれており、さまざまな角度、高度、背景、日中の時間から取得され、マルチモーダル学習、オブジェクトの検出とセグメンテーションのためのドメイン適応、センサー固有の強度と弱点の探索に有用な機会を提供する。
IndraEyeは、特に挑戦的な環境で、より堅牢で正確な空中認識システムの開発を強化することを目的としている。
実験の結果、SAGAは自律走行とIndraEyeデータセットに対するRGB-to-IR適応を著しく改善し、最先端のドメイン適応技術と統合された場合、+0.4%から+7.6%(mAP)の性能向上を実現した。
データセットとコードはhttps://github.com/airliisc/IndraEye.comで公開されている。
関連論文リスト
- RASMD: RGB And SWIR Multispectral Driving Dataset for Robust Perception in Adverse Conditions [0.3141085922386211]
短波長赤外線(SWIR)イメージングは、NIRとLWIRに対していくつかの利点がある。
現在の自律走行アルゴリズムは可視光スペクトルに大きく依存しており、悪条件下での性能劣化を招きやすい。
RGB と SWIR のマルチスペクトル駆動データセットを導入し,RGB-SWIR 画像ペアの同期化と空間整合化を実現した。
論文 参考訳(メタデータ) (2025-04-10T09:54:57Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - IndraEye: Infrared Electro-Optical UAV-based Perception Dataset for Robust Downstream Tasks [1.629670808239867]
本稿では,各種タスク用に設計されたマルチセンサ(EO-IR)データセットであるIndraEyeデータセットを紹介する。
画像は5,612枚と145,666枚で、複数の視角、高度、7つの背景、インド亜大陸を横断する異なる時間を含む。
このデータセットは、マルチモーダル学習、オブジェクトの検出とセグメンテーションのためのドメイン適応、センサー固有の強度と弱点の探索など、いくつかの研究機会を開く。
論文 参考訳(メタデータ) (2024-10-28T12:12:28Z) - Pix2Next: Leveraging Vision Foundation Models for RGB to NIR Image Translation [0.536022165180739]
RGB入力から高画質近赤外(NIR)画像を生成する新しい画像画像変換フレームワークPix2Nextを提案する。
マルチスケールのPatchGAN識別器は、様々な詳細レベルでリアルな画像生成を保証し、慎重に設計された損失関数は、グローバルなコンテキスト理解と局所的な特徴保存を結びつける。
提案手法により、追加のデータ取得やアノテーションの取り組みなしに、NIRデータセットのスケールアップが可能となり、NIRベースのコンピュータビジョンアプリケーションの進歩が加速する可能性がある。
論文 参考訳(メタデータ) (2024-09-25T07:51:47Z) - Near-Infrared and Low-Rank Adaptation of Vision Transformers in Remote Sensing [3.2088888904556123]
近赤外反射率(NIR)を測定するマルチスペクトルセンサを用いて植物の健康状態を動的に監視できる
このような可能性にもかかわらず、高解像度のNIR画像の取得と注釈付けは、ディープニューラルネットワークのトレーニングにおいて重要な課題となっている。
本研究では、RGB領域で事前訓練された視覚変換器(ViT)バックボーンの利点について検討し、NIR領域の下流タスクに対する低ランク適応について検討した。
論文 参考訳(メタデータ) (2024-05-28T07:24:07Z) - RaSim: A Range-aware High-fidelity RGB-D Data Simulation Pipeline for Real-world Applications [55.24463002889]
我々は深度データ合成に焦点をあて、レンジ対応RGB-Dデータシミュレーションパイプライン(RaSim)を開発した。
特に、実世界のセンサーの撮像原理を模倣して高忠実度深度データを生成する。
RaSimは、下流のRGB-D知覚タスクで微調整をすることなく、現実世界のシナリオに直接適用することができる。
論文 参考訳(メタデータ) (2024-04-05T08:52:32Z) - ShadowSense: Unsupervised Domain Adaptation and Feature Fusion for
Shadow-Agnostic Tree Crown Detection from RGB-Thermal Drone Imagery [7.2038295985918825]
本稿では,リモートセンシングデータから木冠の影を検出する新しい手法を提案する。
提案手法(ShadowSense)は完全に自己教師型であり,ソースドメインアノテーションを使わずにドメインの敵対的トレーニングを活用する。
その後、両モードの相補的な情報を融合し、RGBで訓練された検出器の予測を効果的に改善する。
論文 参考訳(メタデータ) (2023-10-24T22:01:14Z) - Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using
Meta-Learning [64.92447072894055]
赤外線(IR)カメラは、照明条件や照明条件が悪ければ頑丈である。
既存のUDA手法を改善するためのアルゴリズムメタ学習フレームワークを提案する。
KAISTおよびDSIACデータセットのための最先端熱検出器を作成した。
論文 参考訳(メタデータ) (2021-10-07T02:28:18Z) - MobileSal: Extremely Efficient RGB-D Salient Object Detection [62.04876251927581]
本稿では,効率的なRGB-Dサルエント物体検出(SOD)に焦点を当てた新しいネットワーク,メソッド名を提案する。
RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙的深度復元(IDR)手法を提案する。
IDRとCPRを組み込むことで、7つの挑戦的なRGB-D SODデータセット上のsArtメソッドに対してメソッド名が好ましい。
論文 参考訳(メタデータ) (2020-12-24T04:36:42Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。