論文の概要: DOAD: Decoupled One Stage Action Detection Network
- arxiv url: http://arxiv.org/abs/2304.00254v2
- Date: Tue, 4 Apr 2023 07:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 10:40:14.415388
- Title: DOAD: Decoupled One Stage Action Detection Network
- Title(参考訳): DOAD: 1段階アクション検出ネットワークを分離
- Authors: Shuning Chang, Pichao Wang, Fan Wang, Jiashi Feng, Mike Zheng Show
- Abstract要約: 人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
- 参考スコア(独自算出の注目度): 77.14883592642782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing people and recognizing their actions from videos is a challenging
task towards high-level video understanding. Existing methods are mostly
two-stage based, with one stage for person bounding box generation and the
other stage for action recognition. However, such two-stage methods are
generally with low efficiency. We observe that directly unifying detection and
action recognition normally suffers from (i) inferior learning due to different
desired properties of context representation for detection and action
recognition; (ii) optimization difficulty with insufficient training data. In
this work, we present a decoupled one-stage network dubbed DOAD, to mitigate
above issues and improve the efficiency for spatio-temporal action detection.
To achieve it, we decouple detection and action recognition into two branches.
Specifically, one branch focuses on detection representation for actor
detection, and the other one for action recognition. For the action branch, we
design a transformer-based module (TransPC) to model pairwise relationships
between people and context. Different from commonly used vector-based dot
product in self-attention, it is built upon a novel matrix-based key and value
for Hadamard attention to model person-context information. It not only
exploits relationships between person pairs but also takes into account context
and relative position information. The results on AVA and UCF101-24 datasets
show that our method is competitive with two-stage state-of-the-art methods
with significant efficiency improvement.
- Abstract(参考訳): 人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
しかし、これらの二段階法は一般に効率が低い。
直接検出と行動認識が 普通に苦しむのを観察します
(i) 検出及び行動認識のための文脈表現の所望の性質の違いによる劣等学習
(ii)訓練データ不足による最適化難易度
本稿では,上記の課題を軽減し,時空間的行動検出の効率を向上させるため,分離された一段階ネットワークであるdoadを提案する。
これを実現するために,検出と動作認識を2つのブランチに分離する。
具体的には、アクター検出のための検出表現と、アクション認識のための別のブランチに焦点を当てる。
アクションブランチでは、人とコンテキスト間の相互関係をモデル化するトランスフォーマーベースモジュール(TransPC)を設計する。
自己注意においてよく使われるベクトルベースのドット製品とは異なり、これは新しい行列ベースのキーとアダマールが人文情報をモデル化するための値の上に構築されている。
個人間の関係を利用するだけでなく、コンテキストや相対的な位置情報も考慮する。
AVAとUCF101-24データセットの結果から,本手法は2段階の最先端手法と競合し,高い効率性を示した。
関連論文リスト
- JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling [8.463489896549161]
2段階ビデオローカライゼーション(英語: Two-stage Video Localization, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的なタスクである。
JARViS(Joint Actor-scene context Relation Modeling)と呼ばれる2段階のVADフレームワークを提案する。
JARViSは、トランスフォーマーアテンションを用いて、空間的および時間的次元にわたって世界中に分布するクロスモーダルアクションセマンティクスを集約する。
論文 参考訳(メタデータ) (2024-08-07T08:08:08Z) - The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Unsupervised Pretraining for Object Detection by Patch Reidentification [72.75287435882798]
教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-08T15:13:59Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。