論文の概要: First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Spatiotemporal Agent Detection 2024
- arxiv url: http://arxiv.org/abs/2410.23077v1
- Date: Wed, 30 Oct 2024 14:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:30.753768
- Title: First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Spatiotemporal Agent Detection 2024
- Title(参考訳): ECCV 2024 ROAD++ Challenge @ ROAD++ Spatiotemporal Agent Detection 2024
- Authors: Tengfei Zhang, Heng Zhang, Ruyang Li, Qi Deng, Yaqian Zhao, Rengang Li,
- Abstract要約: トラック1のタスクはエージェント検出であり、連続したビデオフレーム内のエージェントのためのエージェント用の「エージェントチューブ」を構築することを目的としている。
私たちのソリューションは、超小型オブジェクト、低照度、不均衡、きめ細かい分類など、このタスクにおける課題に焦点を当てています。
ROAD++ Challenge 2024のトラック1のテストセットで最初にランク付けし、平均30.82%の動画mAPを達成した。
- 参考スコア(独自算出の注目度): 12.952512012601874
- License:
- Abstract: This report presents our team's solutions for the Track 1 of the 2024 ECCV ROAD++ Challenge. The task of Track 1 is spatiotemporal agent detection, which aims to construct an "agent tube" for road agents in consecutive video frames. Our solutions focus on the challenges in this task, including extreme-size objects, low-light scenarios, class imbalance, and fine-grained classification. Firstly, the extreme-size object detection heads are introduced to improve the detection performance of large and small objects. Secondly, we design a dual-stream detection model with a low-light enhancement stream to improve the performance of spatiotemporal agent detection in low-light scenes, and the feature fusion module to integrate features from different branches. Subsequently, we develop a multi-branch detection framework to mitigate the issues of class imbalance and fine-grained classification, and we design a pre-training and fine-tuning approach to optimize the above multi-branch framework. Besides, we employ some common data augmentation techniques, and improve the loss function and upsampling operation. We rank first in the test set of Track 1 for the ROAD++ Challenge 2024, and achieve 30.82% average video-mAP.
- Abstract(参考訳): 本報告では,2024年のECCV ROAD++ Challengeのトラック1のソリューションについて紹介する。
トラック1のタスクは時空間エージェント検出であり、連続したビデオフレーム内の道路エージェントのための「エージェントチューブ」を構築することを目的としている。
私たちのソリューションは、極端サイズのオブジェクト、低照度シナリオ、クラス不均衡、きめ細かい分類など、このタスクにおける課題に焦点を当てています。
まず, 極大物体検出ヘッドを導入して, 大小物体の検出性能を向上させる。
第2に,低照度領域における時空間エージェント検出性能を向上させるために,低照度拡張ストリームを用いたデュアルストリーム検出モデルと,異なるブランチの機能を統合する機能融合モジュールを設計する。
その後、クラス不均衡ときめ細かい分類の問題を緩和するマルチブランチ検出フレームワークを開発し、上記のマルチブランチフレームワークを最適化するための事前学習および微調整アプローチを設計する。
さらに、一般的なデータ拡張技術を採用し、損失関数とアップサンプリング操作を改善した。
ROAD++ Challenge 2024のトラック1のテストセットで最初にランク付けし、平均30.82%の動画mAPを達成した。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - ODTFormer: Efficient Obstacle Detection and Tracking with Stereo Cameras Based on Transformer [12.58804521609764]
ODTFormerはTransformerベースのモデルで、障害検出と追跡の両方の問題に対処する。
我々は,最先端の障害物追跡モデルに匹敵する精度を報告し,そのコストはごくわずかである。
論文 参考訳(メタデータ) (2024-03-21T17:59:55Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Oriented R-CNN for Object Detection [61.78746189807462]
本研究では、オブジェクト指向R-CNNと呼ばれる、効果的でシンプルなオブジェクト指向オブジェクト検出フレームワークを提案する。
第1段階では,高品質な指向型提案をほぼ無償で直接生成する指向型領域提案ネットワーク(指向RPN)を提案する。
第2段階は、R-CNNヘッダーで、興味のある領域(オブジェクト指向のRoI)を精製し、認識する。
論文 参考訳(メタデータ) (2021-08-12T12:47:43Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - An Efficient Approach for Anomaly Detection in Traffic Videos [30.83924581439373]
本稿では,エッジデバイスで動作可能な映像異常検出システムのための効率的な手法を提案する。
提案手法は,シーンの変化を検出し,破損したフレームを除去するプリプロセッシングモジュールを含む。
また,新しいシーンに迅速に適応し,類似度統計量の変化を検出するシーケンシャルな変化検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-20T04:43:18Z) - Enhancing Object Detection for Autonomous Driving by Optimizing Anchor
Generation and Addressing Class Imbalance [0.0]
本研究では,より高速なR-CNNに基づく拡張型2次元物体検出器を提案する。
より高速なr-cnnに対する修正は計算コストを増加させず、他のアンカーベースの検出フレームワークを最適化するために容易に拡張できる。
論文 参考訳(メタデータ) (2021-04-08T16:58:31Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。