論文の概要: Video Action Detection: Analysing Limitations and Challenges
- arxiv url: http://arxiv.org/abs/2204.07892v1
- Date: Sun, 17 Apr 2022 00:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 04:51:34.681533
- Title: Video Action Detection: Analysing Limitations and Challenges
- Title(参考訳): ビデオアクション検出:限界と課題の分析
- Authors: Rajat Modi, Aayush Jung Rana, Akash Kumar, Praveen Tirupattur, Shruti
Vyas, Yogesh Singh Rawat, Mubarak Shah
- Abstract要約: ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
- 参考スコア(独自算出の注目度): 70.01260415234127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beyond possessing large enough size to feed data hungry machines (eg,
transformers), what attributes measure the quality of a dataset? Assuming that
the definitions of such attributes do exist, how do we quantify among their
relative existences? Our work attempts to explore these questions for video
action detection. The task aims to spatio-temporally localize an actor and
assign a relevant action class. We first analyze the existing datasets on video
action detection and discuss their limitations. Next, we propose a new dataset,
Multi Actor Multi Action (MAMA) which overcomes these limitations and is more
suitable for real world applications. In addition, we perform a biasness study
which analyzes a key property differentiating videos from static images: the
temporal aspect. This reveals if the actions in these datasets really need the
motion information of an actor, or whether they predict the occurrence of an
action even by looking at a single frame. Finally, we investigate the widely
held assumptions on the importance of temporal ordering: is temporal ordering
important for detecting these actions? Such extreme experiments show existence
of biases which have managed to creep into existing methods inspite of careful
modeling.
- Abstract(参考訳): データ空腹マシン(例えば、トランスフォーマー)を供給できる十分なサイズを持つだけでなく、データセットの品質を計測する属性は何だろうか?
そのような属性の定義が存在すると仮定すると、それらの相対的存在をどうやって定量化するのか?
本研究は,映像行動検出のための課題を探究するものである。
このタスクは、アクターを時空間でローカライズし、関連するアクションクラスを割り当てることを目的としている。
まず,映像アクション検出に関する既存のデータセットを分析し,その限界について考察する。
次に,これらの制約を克服し,より現実のアプリケーションに適したデータセットであるマルチアクタマルチアクション(mama)を提案する。
さらに,静的画像から映像を識別する重要な特性である時間的側面を解析するバイアスネススタディを実施している。
これにより、これらのデータセット内のアクションが本当にアクタの動作情報を必要とするのか、あるいは1つのフレームを見てもアクションの発生を予測するのかが分かる。
最後に, 時間的順序付けの重要性について, 時間的順序付けはこれらの行動を検出する上で重要であるか検討する。
このような極端な実験は、注意深いモデリングの欠如により既存の方法に忍び込んだバイアスの存在を示している。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - A Multi-Person Video Dataset Annotation Method of Spatio-Temporally
Actions [4.49302950538123]
ビデオのクロップやフレームビデオ、そしてビデオフレーム内の人間の検出にYolov5を使い、ビデオフレーム内の人間のIDをディープソートして検出します。
論文 参考訳(メタデータ) (2022-04-21T15:14:02Z) - Sequence-to-Sequence Modeling for Action Identification at High Temporal
Resolution [9.902223920743872]
高時間分解能でラベル付けされた微妙な短時間動作を含む新しい行動認識ベンチマークを導入する。
セグメント化に基づく現在の最先端モデルでは,これらのデータに適用した場合,ノイズの予測が可能であることを示す。
本稿では,音声認識技術に触発された高精度な行動識別手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T21:06:36Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Activity Graph Transformer for Temporal Action Localization [41.69734359113706]
時間的行動のローカリゼーションのためのエンドツーエンド学習可能なモデルであるActivity Graph Transformerを紹介します。
本研究では,この非線形時間構造を,映像を非連続実体としてグラフの形で推論することによって捉える。
その結果,提案したモデルが最新技術より相当なマージンで上回ることが示された。
論文 参考訳(メタデータ) (2021-01-21T10:42:48Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。