論文の概要: Lightweight Multi-Frame Integration for Robust YOLO Object Detection in Videos
- arxiv url: http://arxiv.org/abs/2506.20550v1
- Date: Wed, 25 Jun 2025 15:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.822747
- Title: Lightweight Multi-Frame Integration for Robust YOLO Object Detection in Videos
- Title(参考訳): ビデオにおけるロバストYOLOオブジェクト検出のための軽量多フレーム統合
- Authors: Yitong Quan, Benjamin Kiefer, Martin Messmer, Andreas Zell,
- Abstract要約: マルチフレームビデオオブジェクト検出のための高効率な手法を提案する。
我々の手法は、特に軽量モデルにおいて堅牢性を改善する。
我々はBOAT360ベンチマークデータセットを寄贈し、現実のシナリオに挑戦するマルチフレームビデオオブジェクト検出における将来の研究を支援する。
- 参考スコア(独自算出の注目度): 11.532574301455854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern image-based object detection models, such as YOLOv7, primarily process individual frames independently, thus ignoring valuable temporal context naturally present in videos. Meanwhile, existing video-based detection methods often introduce complex temporal modules, significantly increasing model size and computational complexity. In practical applications such as surveillance and autonomous driving, transient challenges including motion blur, occlusions, and abrupt appearance changes can severely degrade single-frame detection performance. To address these issues, we propose a straightforward yet highly effective strategy: stacking multiple consecutive frames as input to a YOLO-based detector while supervising only the output corresponding to a single target frame. This approach leverages temporal information with minimal modifications to existing architectures, preserving simplicity, computational efficiency, and real-time inference capability. Extensive experiments on the challenging MOT20Det and our BOAT360 datasets demonstrate that our method improves detection robustness, especially for lightweight models, effectively narrowing the gap between compact and heavy detection networks. Additionally, we contribute the BOAT360 benchmark dataset, comprising annotated fisheye video sequences captured from a boat, to support future research in multi-frame video object detection in challenging real-world scenarios.
- Abstract(参考訳): YOLOv7のような現代の画像に基づくオブジェクト検出モデルは、主に個々のフレームを独立に処理し、ビデオに自然に存在する貴重な時間的コンテキストを無視している。
一方、既存のビデオベース検出手法は、しばしば複雑な時間モジュールを導入し、モデルのサイズと計算の複雑さを大幅に増大させる。
監視や自律運転といった実践的な応用では、動きのぼやけ、閉塞、急激な外見の変化といった過渡的な課題は、単一フレーム検出性能を著しく低下させる可能性がある。
これらの問題に対処するために,複数の連続フレームをYOLOベースの検出器への入力として積み重ねることにより,単一のターゲットフレームに対応する出力のみを監視できるという,単純かつ高効率な手法を提案する。
このアプローチは、既存のアーキテクチャへの最小限の変更による時間情報を活用し、単純さ、計算効率、リアルタイム推論能力を保存する。
MOT20DetとBOAT360データセットの大規模な実験により、特に軽量モデルにおいて、我々の手法がロバスト性の検出を改善し、コンパクトな検出ネットワークと重い検出ネットワークのギャップを効果的に狭めることを示した。
さらに,ボートから捕獲した魚眼映像列を含むBOAT360ベンチマークデータセットを寄贈し,現実のシナリオに挑戦する多フレームビデオオブジェクト検出の今後の研究を支援する。
関連論文リスト
- Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。
派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文 参考訳(メタデータ) (2025-01-14T03:15:46Z) - Beyond Boxes: Mask-Guided Spatio-Temporal Feature Aggregation for Video Object Detection [12.417754433715903]
本稿では、インスタンスマスク機能を活用することで、時間的特徴集約を強化する新しいVOD手法であるFAIMを提案する。
YOLOXをベース検出器として使用するFAIMは、イメージネットVIDデータセットの87.9%のmAPを、1つの2080Ti GPU上で33 FPSで達成している。
論文 参考訳(メタデータ) (2024-12-06T10:12:10Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Joint Detection and Tracking in Videos with Identification Features [36.55599286568541]
本稿では,ビデオ検出,追跡,再識別機能の最初の共同最適化を提案する。
提案手法はMOTの最先端に到達し,オンライントラッカーにおけるUA-DETRAC'18追跡課題のうち,第1位,第3位にランクインした。
論文 参考訳(メタデータ) (2020-05-21T21:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。