論文の概要: First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Atomic Activity Recognition 2024
- arxiv url: http://arxiv.org/abs/2410.23092v1
- Date: Wed, 30 Oct 2024 15:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:28.623780
- Title: First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Atomic Activity Recognition 2024
- Title(参考訳): ECCV 2024 ROAD++ Challenge @ ROAD++ Atomic Activity Recognition 2024
- Authors: Ruyang Li, Tengfei Zhang, Heng Zhang, Tiejun Liu, Yanwei Wang, Xuelei Li,
- Abstract要約: 本報告では,2024年のECCV ROAD++ Challengeのトラック3に参加するための,私たちのチームの技術的ソリューションについて紹介する。
トラック3のタスクは、映像コンテンツに基づいて、路面の64種類の原子活動を特定することを目的とした原子活動認識である。
我々のアプローチは、主に小さなオブジェクトの課題に対処し、単一のオブジェクトとオブジェクトのグループを区別し、モデルオーバーフィットする。
- 参考スコア(独自算出の注目度): 5.674251666234644
- License:
- Abstract: This report presents our team's technical solution for participating in Track 3 of the 2024 ECCV ROAD++ Challenge. The task of Track 3 is atomic activity recognition, which aims to identify 64 types of atomic activities in road scenes based on video content. Our approach primarily addresses the challenges of small objects, discriminating between single object and a group of objects, as well as model overfitting in this task. Firstly, we construct a multi-branch activity recognition framework that not only separates different object categories but also the tasks of single object and object group recognition, thereby enhancing recognition accuracy. Subsequently, we develop various model ensembling strategies, including integrations of multiple frame sampling sequences, different frame sampling sequence lengths, multiple training epochs, and different backbone networks. Furthermore, we propose an atomic activity recognition data augmentation method, which greatly expands the sample space by flipping video frames and road topology, effectively mitigating model overfitting. Our methods rank first in the test set of Track 3 for the ROAD++ Challenge 2024, and achieve 69% mAP.
- Abstract(参考訳): 本報告では,2024年のECCV ROAD++ Challengeのトラック3に参加するための,私たちのチームの技術的ソリューションについて紹介する。
トラック3の課題は、映像コンテンツに基づいて64種類の道路シーンにおける原子活動を特定することを目的とした原子活動認識である。
このアプローチは主に、単一のオブジェクトとオブジェクトのグループを区別する、小さなオブジェクトの課題と、このタスクにおけるモデル過度に適合する問題に対処する。
まず、異なるオブジェクトカテゴリだけでなく、単一のオブジェクトとオブジェクトグループ認識のタスクを分離するマルチブランチアクティビティ認識フレームワークを構築し、認識精度を向上する。
その後、複数のフレームサンプリングシーケンスの統合、異なるフレームサンプリングシーケンスの長さ、複数のトレーニングエポック、異なるバックボーンネットワークなど、さまざまなモデルアンサンブル戦略を開発した。
さらに,ビデオフレームと道路トポロジを反転させてサンプル空間を大幅に拡張し,モデルオーバーフィッティングを効果的に緩和する原子活動認識データ拡張手法を提案する。
ROAD++ Challenge 2024のトラック3のテストセットで最初にランク付けし、69%のmAPを達成した。
関連論文リスト
- Improving the Multi-label Atomic Activity Recognition by Robust Visual Feature and Advanced Attention @ ROAD++ Atomic Activity Recognition 2024 [34.921509504848025]
Road++ Track3は、トラフィックシナリオにおけるマルチラベルのアトミックアクティビティ認識タスクを提案する。
視覚的特徴抽出の堅牢性は依然として重要な課題である。
テストセットの最終mAPは58%で、チャレンジベースラインよりも4%高い。
論文 参考訳(メタデータ) (2024-10-21T14:10:14Z) - 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition [51.96660522869841]
DailyDVS-200は、イベントベースのアクション認識コミュニティに適したベンチマークデータセットである。
実世界のシナリオで200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
DailyDVS-200には14の属性がアノテートされており、記録されたアクションの詳細なキャラクタリゼーションが保証されている。
論文 参考訳(メタデータ) (2024-07-06T15:25:10Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - A Vanilla Multi-Task Framework for Dense Visual Prediction Solution to
1st VCL Challenge -- Multi-Task Robustness Track [31.754017006309564]
様々な視覚認識アルゴリズムをマルチタスクモデルにシームレスに結合するUniNetというフレームワークを提案する。
具体的には,DreTR3D,Mask2Former,BinsFormerを3次元オブジェクト検出,インスタンスセグメンテーション,深さ推定タスクとして選択する。
最後のエントリーは、InternImage-Lバックボーンを備えた単一のモデルで、総合スコアは49.6である。
論文 参考訳(メタデータ) (2024-02-27T08:51:20Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Self-Supervised Interactive Object Segmentation Through a
Singulation-and-Grasping Approach [9.029861710944704]
本稿では,新しいオブジェクトと対話し,各オブジェクトのトレーニングラベルを収集するロボット学習手法を提案する。
Singulation-and-Grasping(SaG)ポリシは、エンドツーエンドの強化学習を通じてトレーニングされる。
本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。
論文 参考訳(メタデータ) (2022-07-19T15:01:36Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - MultiBodySync: Multi-Body Segmentation and Motion Estimation via 3D Scan
Synchronization [61.015704878681795]
本稿では,3次元点雲のための多体運動分節と剛性登録フレームワークを提案する。
このマルチスキャンマルチボディ設定によって生じる2つの非自明な課題は、である。
複数の入力ポイントクラウド間の対応性とセグメンテーション一貫性の保証
新規な対象カテゴリーに適用可能なロバストな運動に基づく剛体セグメンテーションを得る。
論文 参考訳(メタデータ) (2021-01-17T06:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。