論文の概要: DOD-SA: Infrared-Visible Decoupled Object Detection with Single-Modality Annotations
- arxiv url: http://arxiv.org/abs/2508.10445v1
- Date: Thu, 14 Aug 2025 08:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.23386
- Title: DOD-SA: Infrared-Visible Decoupled Object Detection with Single-Modality Annotations
- Title(参考訳): DOD-SA:単一モダリティアノテーションを用いた赤外線可視デカップリング物体検出
- Authors: Hang Jin, Chenqiang Gao, Junjie Guo, Fangcen Liu, Kanghui Tian, Qinyao Chang,
- Abstract要約: DOD-SAと呼ばれる単一モダリティ協調型赤外線可視デカップリング物体検出フレームワークを提案する。
DOD-SAのアーキテクチャは、単一モダリティ分岐 (SM-Branch) と二重モダリティ分離分岐 (DMD-Branch) から構成されるシングルモダリティとデュアルモダリティのTeacher-Student Network (CoSD-TSNet) 上に構築されている。
協調設計により、ラベル付きモダリティからラベルなしモダリティへの相互モダリティ知識の伝達を可能にし、効果的なSM-to-DMDブランチの監視を容易にする。
- 参考スコア(独自算出の注目度): 7.197802497637254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared-visible object detection has shown great potential in real-world applications, enabling robust all-day perception by leveraging the complementary information of infrared and visible images. However, existing methods typically require dual-modality annotations to output detection results for both modalities during prediction, which incurs high annotation costs. To address this challenge, we propose a novel infrared-visible Decoupled Object Detection framework with Single-modality Annotations, called DOD-SA. The architecture of DOD-SA is built upon a Single- and Dual-Modality Collaborative Teacher-Student Network (CoSD-TSNet), which consists of a single-modality branch (SM-Branch) and a dual-modality decoupled branch (DMD-Branch). The teacher model generates pseudo-labels for the unlabeled modality, simultaneously supporting the training of the student model. The collaborative design enables cross-modality knowledge transfer from the labeled modality to the unlabeled modality, and facilitates effective SM-to-DMD branch supervision. To further improve the decoupling ability of the model and the pseudo-label quality, we introduce a Progressive and Self-Tuning Training Strategy (PaST) that trains the model in three stages: (1) pretraining SM-Branch, (2) guiding the learning of DMD-Branch by SM-Branch, and (3) refining DMD-Branch. In addition, we design a Pseudo Label Assigner (PLA) to align and pair labels across modalities, explicitly addressing modality misalignment during training. Extensive experiments on the DroneVehicle dataset demonstrate that our method outperforms state-of-the-art (SOTA).
- Abstract(参考訳): 赤外線可視物体検出は、赤外線と可視画像の相補的情報を活用することにより、実世界のアプリケーションにおいて大きな可能性を秘めている。
しかし、既存の手法では、予測時に両方のモダリティに対する検出結果を出力するために2つのモダリティアノテーションが必要であり、高いアノテーションコストが発生する。
この課題に対処するために,DOD-SAと呼ばれる単一モダリティアノテーションを用いた新しい赤外線可視デカップリングオブジェクト検出フレームワークを提案する。
DOD-SAのアーキテクチャは、シングルモダリティブランチ(SM-Branch)とデュアルモダリティデカップリングブランチ(DMD-Branch)で構成される、シングルモダリティおよびデュアルモダリティ協調型教員ネットワーク(CoSD-TSNet)上に構築されている。
教師モデルは、未ラベルのモダリティのための擬似ラベルを生成し、同時に学生モデルのトレーニングをサポートする。
協調設計により、ラベル付きモダリティからラベルなしモダリティへの相互モダリティ知識の伝達を可能にし、効果的なSM-to-DMDブランチの監視を容易にする。
モデルのデカップリング能力と擬似ラベル品質をさらに向上させるために,(1)SMブランチの事前訓練,(2)SMブランチによるDMDブランチの学習指導,(3)DMDブランチの精製の3段階でモデルを訓練するプログレッシブ・セルフチューニング・トレーニング・ストラテジー(PaST)を導入する。
さらに,Pseudo Label Assigner (PLA) を設計し,モダリティ間のアライメントとペアリングを行い,トレーニング中のモダリティの不整合に対処する。
DroneVehicleデータセットの大規模な実験は、我々の手法が最先端(SOTA)より優れていることを示している。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。