論文の概要: ATARS: An Aerial Traffic Atomic Activity Recognition and Temporal Segmentation Dataset
- arxiv url: http://arxiv.org/abs/2503.18553v1
- Date: Mon, 24 Mar 2025 11:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:49.883996
- Title: ATARS: An Aerial Traffic Atomic Activity Recognition and Temporal Segmentation Dataset
- Title(参考訳): ATARS: 航空交通原子活動認識と時間分割データセット
- Authors: Zihao Chen, Hsuanyu Wu, Chi-Hsi Kung, Yi-Ting Chen, Yan-Tsung Peng,
- Abstract要約: 本稿では,Aerial Traffic Atomic Activity Recognition and (ATARS) データセットについて紹介する。
各フレームにアトミックなアクティビティラベルを提供し、トラフィックアクティビティの間隔を正確に記録します。
本稿では,原子活動の正確な時間的位置推定が可能な新しいタスクであるマルチラベルトリミング原子活動認識法を提案する。
- 参考スコア(独自算出の注目度): 11.07193206318681
- License:
- Abstract: Traffic Atomic Activity which describes traffic patterns for topological intersection dynamics is a crucial topic for the advancement of intelligent driving systems. However, existing atomic activity datasets are collected from an egocentric view, which cannot support the scenarios where traffic activities in an entire intersection are required. Moreover, existing datasets only provide video-level atomic activity annotations, which require exhausting efforts to manually trim the videos for recognition and limit their applications to untrimmed videos. To bridge this gap, we introduce the Aerial Traffic Atomic Activity Recognition and Segmentation (ATARS) dataset, the first aerial dataset designed for multi-label atomic activity analysis. We offer atomic activity labels for each frame, which accurately record the intervals for traffic activities. Moreover, we propose a novel task, Multi-label Temporal Atomic Activity Recognition, enabling the study of accurate temporal localization for atomic activity and easing the burden of manual video trimming for recognition. We conduct extensive experiments to evaluate existing state-of-the-art models on both atomic activity recognition and temporal atomic activity segmentation. The results highlight the unique challenges of our ATARS dataset, such as recognizing extremely small objects' activities. We further provide comprehensive discussion analyzing these challenges and offer valuable insights for future direction to improve recognizing atomic activity in aerial view. Our source code and dataset are available at https://github.com/magecliff96/ATARS/
- Abstract(参考訳): トポロジカル・インターチェンジ・ダイナミクスのための交通パターンを記述した交通原子活動は、インテリジェントな運転システムの進歩にとって重要なトピックである。
しかし、既存の原子活動データセットはエゴセントリックな視点から収集されるため、交差点全体の交通活動が必要なシナリオはサポートできない。
さらに、既存のデータセットはビデオレベルのアトミックなアクティビティアノテーションのみを提供しており、ビデオの認識のために手作業でトリミングし、アプリケーションは未トリミングされたビデオに制限される。
このギャップを埋めるために,Aerial Traffic Atomic Activity Recognition and Segmentation (ATARS)データセットを導入する。
各フレームにアトミックなアクティビティラベルを提供し、トラフィックアクティビティの間隔を正確に記録します。
さらに、原子活動の正確な時間的局在化と、認識のための手動ビデオトリミングの負担軽減が可能な、新しいタスクであるマルチラベル時間的原子活動認識を提案する。
我々は、原子活動認識と時間的原子活動セグメンテーションの両方において、既存の最先端モデルを評価するために広範な実験を行う。
その結果、非常に小さなオブジェクトのアクティビティを認識するなど、ATARSデータセットのユニークな課題が浮き彫りになりました。
さらに,これらの課題を総合的に分析し,航空観における原子活動の認識を改善するための今後の方向性について貴重な知見を提供する。
ソースコードとデータセットはhttps://github.com/magecliff96/ATARS/で公開されています。
関連論文リスト
- VCHAR:Variance-Driven Complex Human Activity Recognition framework with Generative Representation [6.278293754210117]
VCHAR(Variance-Driven Complex Human Activity Recognition)は、原子活動の出力を特定の間隔での分布として扱う新しいフレームワークである。
VCHARは、原子活動の正確な時間的・シーケンシャルなラベル付けを必要とせず、複雑な活動認識の精度を高める。
論文 参考訳(メタデータ) (2024-07-03T17:24:36Z) - Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes [23.284478293459856]
Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。
私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。
この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
論文 参考訳(メタデータ) (2023-11-29T05:28:05Z) - Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention [45.60789439017625]
個人ビデオにおける短期的行動予測(STA)は難しい課題である。
本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。
提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
論文 参考訳(メタデータ) (2023-05-22T11:56:10Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。
我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文 参考訳(メタデータ) (2020-11-17T03:59:05Z) - Sequential Weakly Labeled Multi-Activity Localization and Recognition on
Wearable Sensors using Recurrent Attention Networks [13.64024154785943]
本稿では,逐次的にラベル付けされたマルチアクティビティ認識と位置情報タスクを処理するために,RAN(Recurrent attention network)を提案する。
我々のRANモデルは、粗粒度シーケンシャルな弱いラベルからマルチアクティビティータイプを同時に推測することができる。
手動ラベリングの負担を大幅に軽減する。
論文 参考訳(メタデータ) (2020-04-13T04:57:09Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。