論文の概要: On Modality Incomplete Infrared-Visible Object Detection: An Architecture Compatibility Perspective
- arxiv url: http://arxiv.org/abs/2511.06406v1
- Date: Sun, 09 Nov 2025 14:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.927256
- Title: On Modality Incomplete Infrared-Visible Object Detection: An Architecture Compatibility Perspective
- Title(参考訳): モジュラリティ不完全赤外可視物体検出について:アーキテクチャの適合性の観点から
- Authors: Shuo Yang, Yinghui Xing, Shizhou Zhang, Zhilong Niu,
- Abstract要約: 現在のIVODモデルは、不完全なモダリティデータに直面すると顕著な性能低下を示す。
本稿では,DTR変種に対するプラグアンドプレイ型Scarf Neckモジュールを提案する。
提案したScarf-DETRは、欠落したモダリティシナリオにおいて優れた性能を発揮するだけでなく、標準のIVODモダリティ完全ベンチマークでも優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 21.149957238830446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infrared and visible object detection (IVOD) is essential for numerous around-the-clock applications. Despite notable advancements, current IVOD models exhibit notable performance declines when confronted with incomplete modality data, particularly if the dominant modality is missing. In this paper, we take a thorough investigation on modality incomplete IVOD problem from an architecture compatibility perspective. Specifically, we propose a plug-and-play Scarf Neck module for DETR variants, which introduces a modality-agnostic deformable attention mechanism to enable the IVOD detector to flexibly adapt to any single or double modalities during training and inference. When training Scarf-DETR, we design a pseudo modality dropout strategy to fully utilize the multi-modality information, making the detector compatible and robust to both working modes of single and double modalities. Moreover, we introduce a comprehensive benchmark for the modality-incomplete IVOD task aimed at thoroughly assessing situations where the absent modality is either dominant or secondary. Our proposed Scarf-DETR not only performs excellently in missing modality scenarios but also achieves superior performances on the standard IVOD modality complete benchmarks. Our code will be available at https://github.com/YinghuiXing/Scarf-DETR.
- Abstract(参考訳): 近赤外・可視物体検出(IVOD)は、多くの応用に欠かせない。
顕著な進歩にもかかわらず、現在のIVODモデルは、特に支配的なモダリティが欠如している場合に、不完全なモダリティデータに直面したとき、顕著なパフォーマンス低下を示す。
本稿では,アーキテクチャの整合性の観点から,モダリティ不完全IVOD問題について徹底的に検討する。
具体的には,DTR バリアント用プラグアンドプレイ Scarf Neck モジュールを提案する。このモジュールは,トレーニングや推論において,IVOD 検出器が任意の単一あるいは二重のモードに柔軟に適応できるように,モダリティに依存しない変形性アテンション機構を導入する。
Scarf-DETRのトレーニングでは,マルチモーダル情報を完全に活用する擬似モダリティドロップアウト戦略を設計し,単一モードと二重モードの両方の動作モードに対して,検出器の互換性と堅牢性を実現する。
さらに,不完全不完全なIVOD課題に対して,不完全不完全が支配的あるいは二次的である状況の徹底的な評価を目的とした総合的ベンチマークを導入する。
提案したScarf-DETRは、欠落したモダリティシナリオにおいて優れた性能を発揮するだけでなく、標準のIVODモダリティ完全ベンチマークでも優れた性能を発揮する。
私たちのコードはhttps://github.com/YinghuiXing/Scarf-DETRで公開されます。
関連論文リスト
- Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - DOD-SA: Infrared-Visible Decoupled Object Detection with Single-Modality Annotations [7.197802497637254]
DOD-SAと呼ばれる単一モダリティ協調型赤外線可視デカップリング物体検出フレームワークを提案する。
DOD-SAのアーキテクチャは、単一モダリティ分岐 (SM-Branch) と二重モダリティ分離分岐 (DMD-Branch) から構成されるシングルモダリティとデュアルモダリティのTeacher-Student Network (CoSD-TSNet) 上に構築されている。
協調設計により、ラベル付きモダリティからラベルなしモダリティへの相互モダリティ知識の伝達を可能にし、効果的なSM-to-DMDブランチの監視を容易にする。
論文 参考訳(メタデータ) (2025-08-14T08:33:51Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - CoLA: Conditional Dropout and Language-driven Robust Dual-modal Salient Object Detection [12.780661306169474]
我々はtextbfConditional Dropout と textbfLAnguage-driven(textbfCoLA) フレームワークを紹介する。
このフレームワークは、ノイズの多い入力の影響を軽減し、その性能を完全なモダリティで保存する。
モダリティ完全条件とモダリティ欠如条件の両方の下で、最先端のデュアルモーダルSODモデルより優れている。
論文 参考訳(メタデータ) (2024-07-09T11:49:24Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。