論文の概要: Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks
- arxiv url: http://arxiv.org/abs/2411.18288v1
- Date: Wed, 27 Nov 2024 12:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:33.568283
- Title: Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks
- Title(参考訳): マルチスペクトル物体検出の最適化:トリックのバグと総合ベンチマーク
- Authors: Chen Zhou, Peng Cheng, Junfeng Fang, Yifan Zhang, Yibo Yan, Xiaojun Jia, Yanyan Xu, Kun Wang, Xiaochun Cao,
- Abstract要約: RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.84182981950623
- License:
- Abstract: Multispectral object detection, utilizing RGB and TIR (thermal infrared) modalities, is widely recognized as a challenging task. It requires not only the effective extraction of features from both modalities and robust fusion strategies, but also the ability to address issues such as spectral discrepancies, spatial misalignment, and environmental dependencies between RGB and TIR images. These challenges significantly hinder the generalization of multispectral detection systems across diverse scenarios. Although numerous studies have attempted to overcome these limitations, it remains difficult to clearly distinguish the performance gains of multispectral detection systems from the impact of these "optimization techniques". Worse still, despite the rapid emergence of high-performing single-modality detection models, there is still a lack of specialized training techniques that can effectively adapt these models for multispectral detection tasks. The absence of a standardized benchmark with fair and consistent experimental setups also poses a significant barrier to evaluating the effectiveness of new approaches. To this end, we propose the first fair and reproducible benchmark specifically designed to evaluate the training "techniques", which systematically classifies existing multispectral object detection methods, investigates their sensitivity to hyper-parameters, and standardizes the core configurations. A comprehensive evaluation is conducted across multiple representative multispectral object detection datasets, utilizing various backbone networks and detection frameworks. Additionally, we introduce an efficient and easily deployable multispectral object detection framework that can seamlessly optimize high-performing single-modality models into dual-modality models, integrating our advanced training techniques.
- Abstract(参考訳): RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
それは、モダリティと堅牢な融合戦略の両方から効果的な特徴の抽出だけでなく、スペクトルの相違、空間的不整合、RGBとTIR画像間の環境依存性といった問題に対処する能力も必要である。
これらの課題は、様々なシナリオにまたがるマルチスペクトル検出システムの一般化を著しく妨げている。
多くの研究がこれらの制限を克服しようと試みているが、これらの「最適化技術」の影響とマルチスペクトル検出システムの性能向上を明確に区別することは困難である。
さらに悪いことに、ハイパフォーマンスな単一モード検出モデルが急速に出現したにもかかわらず、これらのモデルをマルチスペクトル検出タスクに効果的に適用できる専門的な訓練技術はいまだに存在しない。
公平で一貫した実験的なセットアップを備えた標準ベンチマークが存在しないことは、新しいアプローチの有効性を評価する上でも大きな障壁となる。
そこで本研究では,既存のマルチスペクトルオブジェクト検出手法を体系的に分類し,ハイパーパラメータに対する感度を検証し,コア構成を標準化する,トレーニング"技術"を評価するために設計された,最初の公正かつ再現可能なベンチマークを提案する。
様々なバックボーンネットワークと検出フレームワークを利用して,複数の代表的なマルチスペクトルオブジェクト検出データセットに対して総合的な評価を行う。
さらに,高パフォーマンス単一モードモデルと2重モードモデルとのシームレスな最適化が可能な,効率よく容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを導入し,先進的なトレーニング手法を統合する。
関連論文リスト
- Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-Driven Approach for Cross-modal Alignment Fusion [43.29589667431712]
本稿では,高度に不整合したデータセットを扱うために設計された多スペクトル歩行者検出のための新しい枠組みを提案する。
大規模視覚言語モデル(LVLM)を相互意味的アライメントに活用することにより,検出精度の向上を図る。
論文 参考訳(メタデータ) (2024-11-27T02:24:51Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Efficient Meta-Learning Enabled Lightweight Multiscale Few-Shot Object Detection in Remote Sensing Images [15.12889076965307]
YOLOv7ワンステージ検出器は、新しいメタラーニングトレーニングフレームワークが組み込まれている。
この変換により、検出器はFSODのタスクに十分対応できると同時に、その固有の軽量化の利点を活かすことができる。
提案検出器の有効性を検証するため, 現状の検出器と性能比較を行った。
論文 参考訳(メタデータ) (2024-04-29T04:56:52Z) - Effective Multi-Stage Training Model For Edge Computing Devices In
Intrusion Detection [0.0]
本研究は,3段階の訓練パラダイムを導入し,改良されたプルーニング手法とモデル圧縮手法により強化した。
目的はシステムの有効性を高めることであり、侵入検知のための高いレベルの精度を同時に維持することである。
論文 参考訳(メタデータ) (2024-01-31T02:20:21Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object
Tracking [38.36872739816151]
検出器内のOAA(Occlusion-Aware Attention)モジュールは、隠蔽された背景領域を抑えながらオブジェクトの特徴を強調する。
OAAは、隠蔽される可能性のある物体の検出器を強化する変調器として機能する。
最適輸送問題に基づくRe-ID埋め込みマッチングブロックを設計する。
論文 参考訳(メタデータ) (2023-08-30T06:56:53Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Real-World Anomaly Detection by using Digital Twin Systems and
Weakly-Supervised Learning [3.0100975935933567]
本稿では, 産業環境における異常検出に対する弱い制御手法を提案する。
これらのアプローチでは、Digital Twinを使用して、機械の通常の動作をシミュレートするトレーニングデータセットを生成する。
提案手法の性能を,実世界のデータセットに応用した様々な最先端の異常検出アルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-11-12T10:15:56Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。