論文の概要: Actor-identified Spatiotemporal Action Detection -- Detecting Who Is
Doing What in Videos
- arxiv url: http://arxiv.org/abs/2208.12940v1
- Date: Sat, 27 Aug 2022 06:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:53:41.582371
- Title: Actor-identified Spatiotemporal Action Detection -- Detecting Who Is
Doing What in Videos
- Title(参考訳): アクター同定時空間行動検出 -- ビデオ中の誰が何をしているかを検出する
- Authors: Fan Yang, Norimichi Ukita, Sakriani Sakti, Satoshi Nakamura
- Abstract要約: ビデオ中の各アクションの開始時刻と終了時刻を推定するために、TAD(Temporal Action Detection)が検討されている。
時空間行動検出 (SAD) は, 映像の空間的, 時間的両方の行動の局所化を目的として研究されている。
SADアクター識別のギャップを埋める新しいタスクであるActor-identified Spatiotemporal Action Detection (ASAD)を提案する。
- 参考スコア(独自算出の注目度): 29.5205455437899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep learning on video Action Recognition (AR) has motivated
researchers to progressively promote related tasks from the coarse level to the
fine-grained level. Compared with conventional AR that only predicts an action
label for the entire video, Temporal Action Detection (TAD) has been
investigated for estimating the start and end time for each action in videos.
Taking TAD a step further, Spatiotemporal Action Detection (SAD) has been
studied for localizing the action both spatially and temporally in videos.
However, who performs the action, is generally ignored in SAD, while
identifying the actor could also be important. To this end, we propose a novel
task, Actor-identified Spatiotemporal Action Detection (ASAD), to bridge the
gap between SAD and actor identification.
In ASAD, we not only detect the spatiotemporal boundary for instance-level
action but also assign the unique ID to each actor. To approach ASAD, Multiple
Object Tracking (MOT) and Action Classification (AC) are two fundamental
elements. By using MOT, the spatiotemporal boundary of each actor is obtained
and assigned to a unique actor identity. By using AC, the action class is
estimated within the corresponding spatiotemporal boundary. Since ASAD is a new
task, it poses many new challenges that cannot be addressed by existing
methods: i) no dataset is specifically created for ASAD, ii) no evaluation
metrics are designed for ASAD, iii) current MOT performance is the bottleneck
to obtain satisfactory ASAD results. To address those problems, we contribute
to i) annotate a new ASAD dataset, ii) propose ASAD evaluation metrics by
considering multi-label actions and actor identification, iii) improve the data
association strategies in MOT to boost the MOT performance, which leads to
better ASAD results. The code is available at
\url{https://github.com/fandulu/ASAD}.
- Abstract(参考訳): ビデオアクション認識(ar)におけるディープラーニングの成功は、研究者たちが粗いレベルから細かなレベルまで、関連するタスクを段階的に促進する動機となった。
ビデオ全体のアクションラベルのみを予測する従来のARと比較して、ビデオ中の各アクションの開始時間と終了時間を推定するために、TAD(Temporal Action Detection)が調査されている。
TADをさらに一歩進めて、時空間行動検出(SAD)は、ビデオの空間的および時間的両方のアクションをローカライズするために研究されている。
しかし、アクションを演じる人物は、悲しいことに一般的に無視されるが、俳優を特定することも重要である。
そこで本研究では,SADとアクター識別のギャップを埋める新たなタスクであるアクター識別時空間行動検出(ASAD)を提案する。
ASADでは、インスタンスレベルのアクションの時空間境界を検出するだけでなく、アクター毎にユニークなIDを割り当てる。
ASADにアプローチするためには、Multiple Object Tracking(MOT)とAction Classification(AC)が2つの基本的な要素である。
MOTを使用することで、各アクターの時空間境界を求め、ユニークなアクターIDに割り当てる。
acを用いて、アクションクラスを対応する時空間境界内で推定する。
ASADは新しいタスクなので、既存のメソッドでは対処できない多くの新しい課題を生じさせます。
i) ASAD用に特別に作成されるデータセットは存在しない。
二 評価基準がASADのために設計されていないこと。
iii) 現在のmot性能は、十分なasad結果を得るためのボトルネックである。
これらの問題に対処するために
i) 新しいASADデータセットをアノテートすること。
二 マルチラベル行動及びアクター識別を考慮したASAD評価指標の提案。
三 MOTのデータアソシエーション戦略の改善により、MOTのパフォーマンスが向上し、ASADの結果が向上する。
コードは \url{https://github.com/fandulu/asad} で入手できる。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - JOADAA: joint online action detection and action anticipation [2.7792814152937027]
アクション予測は、過去のイベントと将来のイベントを結びつけることによって、将来のアクションを予測する。
オンラインアクション検出は、ストリーミング形式でアクションを予測するタスクである。
行動予測とオンライン行動検出を組み合わせることで、我々のアプローチは将来の情報の欠落した依存関係をカバーできる。
論文 参考訳(メタデータ) (2023-09-12T11:17:25Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - A Spatio-Temporal Identity Verification Method for Person-Action
Instance Search in Movies [32.76347250146175]
Person-Action Instance Search (INS) は、大規模なビデオ撮影から特定の人物が特定のアクションを実行するショットを検索することを目的としている。
2つの個別INSスコアの直接集計は、個人と行動間のアイデンティティの整合性を保証することはできない。
個人INSとアクションINSの直接融合スコアを最適化するためのアイデンティティ整合性検証手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T11:00:47Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。