論文の概要: MVP: Robust Multi-View Practice for Driving Action Localization
- arxiv url: http://arxiv.org/abs/2207.02042v1
- Date: Tue, 5 Jul 2022 13:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:53:01.870403
- Title: MVP: Robust Multi-View Practice for Driving Action Localization
- Title(参考訳): MVP: 行動ローカライゼーションのためのロバストなマルチビュープラクティス
- Authors: Jingjie Shang and Kunchang Li and Kaibin Tian and Haisheng Su and
Yangguang Li
- Abstract要約: 本稿では、ビデオ間のマルチビュー同期をよく利用し、アクションローカライゼーションのための堅牢なマルチビュープラクティス(MVP)を実行する。
すべてのアクションを正確にローカライズするために、モデル投票、しきい値フィルタリング、重複除去を含む精巧な後処理を設計する。
その結果、MVPは動作のローカライゼーションに堅牢であることを示し、Track3テストセットで28.49%のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 8.74092630762456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distracted driving causes thousands of deaths per year, and how to apply
deep-learning methods to prevent these tragedies has become a crucial problem.
In Track3 of the 6th AI City Challenge, researchers provide a high-quality
video dataset with densely action annotations. Due to the small data scale and
unclear action boundary, the dataset presents a unique challenge to precisely
localize all the different actions and classify their categories. In this
paper, we make good use of the multi-view synchronization among videos, and
conduct robust Multi-View Practice (MVP) for driving action localization. To
avoid overfitting, we fine-tune SlowFast with Kinetics-700 pre-training as the
feature extractor. Then the features of different views are passed to
ActionFormer to generate candidate action proposals. For precisely localizing
all the actions, we design elaborate post-processing, including model voting,
threshold filtering and duplication removal. The results show that our MVP is
robust for driving action localization, which achieves 28.49% F1-score in the
Track3 test set.
- Abstract(参考訳): 引き離された運転は年に何千もの死の原因となり、これらの悲劇を防ぐためにディープラーニング手法を適用する方法が重要な問題となっている。
第6回AIシティチャレンジのトラック3では、研究者が高機能なアクションアノテーションを備えた高品質のビデオデータセットを提供する。
小さなデータスケールと不明瞭なアクション境界のため、データセットは、すべての異なるアクションを正確にローカライズし、カテゴリを分類するユニークな課題を示す。
本稿では,映像間のマルチビュー同期を有効活用し,ロバスト・マルチビュー・プラクティス(mvp)により動作のローカライゼーションを実現する。
オーバーフィッティングを避けるために, 特徴抽出器としてのkinetics-700プリトレーニングにより, 高速に微調整を行う。
次に、異なるビューの特徴をActionFormerに渡して、候補となるアクション提案を生成する。
すべてのアクションを正確にローカライズするために、モデル投票、しきい値フィルタリング、重複除去を含む精巧な後処理を設計する。
その結果,MVPは動作ローカライゼーションに堅牢であり,Track3テストセットでは28.49%のF1スコアを達成した。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - DeepLocalization: Using change point detection for Temporal Action Localization [2.4502578110136946]
DeepLocalizationは、ドライバーの行動を監視するために明示的に調整されたアクションのリアルタイムローカライゼーションのために考案された革新的なフレームワークである。
我々の戦略は、ビデオ大言語モデル(Video Large Language Model, Video-LLM)と並行して、グラフベースの変更点検出を時間内のピンポイント行動に活用し、アクティビティを正確に分類する、という2つのアプローチを採用している。
論文 参考訳(メタデータ) (2024-04-18T15:25:59Z) - Density-Guided Label Smoothing for Temporal Localization of Driving
Actions [8.841708075914353]
我々は,映像行動認識ネットワークを効率的に活用することで,全体的な性能向上に重点を置いている。
映像セグメントからの情報と複数のカメラビューをシーンレベルの予測に効率的に融合する処理後ステップを設計する。
提案手法は,2022年のNVIDIA AI City Challengeにおける自然主義駆動行動認識トラックのA2テストセットにおいて,F1スコア0.271の競合性能を示す。
論文 参考訳(メタデータ) (2024-03-11T11:06:41Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Learning to Localize Actions from Moments [153.54638582696128]
本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
論文 参考訳(メタデータ) (2020-08-31T16:03:47Z) - TinyVIRAT: Low-resolution Video Action Recognition [70.37277191524755]
現実世界の監視環境では、ビデオ内のアクションは幅広い解像度でキャプチャされる。
天然の低解像度アクティビティを含むベンチマークデータセットTinyVIRATを導入する。
本稿では,プログレッシブ・ジェネレーティブ・アプローチを用いたビデオにおける小さな動作を認識する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T21:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。