論文の概要: DOAD: Decoupled One Stage Action Detection Network
- arxiv url: http://arxiv.org/abs/2304.00254v2
- Date: Tue, 4 Apr 2023 07:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 10:40:14.415388
- Title: DOAD: Decoupled One Stage Action Detection Network
- Title(参考訳): DOAD: 1段階アクション検出ネットワークを分離
- Authors: Shuning Chang, Pichao Wang, Fan Wang, Jiashi Feng, Mike Zheng Show
- Abstract要約: 人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
- 参考スコア(独自算出の注目度): 77.14883592642782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing people and recognizing their actions from videos is a challenging
task towards high-level video understanding. Existing methods are mostly
two-stage based, with one stage for person bounding box generation and the
other stage for action recognition. However, such two-stage methods are
generally with low efficiency. We observe that directly unifying detection and
action recognition normally suffers from (i) inferior learning due to different
desired properties of context representation for detection and action
recognition; (ii) optimization difficulty with insufficient training data. In
this work, we present a decoupled one-stage network dubbed DOAD, to mitigate
above issues and improve the efficiency for spatio-temporal action detection.
To achieve it, we decouple detection and action recognition into two branches.
Specifically, one branch focuses on detection representation for actor
detection, and the other one for action recognition. For the action branch, we
design a transformer-based module (TransPC) to model pairwise relationships
between people and context. Different from commonly used vector-based dot
product in self-attention, it is built upon a novel matrix-based key and value
for Hadamard attention to model person-context information. It not only
exploits relationships between person pairs but also takes into account context
and relative position information. The results on AVA and UCF101-24 datasets
show that our method is competitive with two-stage state-of-the-art methods
with significant efficiency improvement.
- Abstract(参考訳): 人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
しかし、これらの二段階法は一般に効率が低い。
直接検出と行動認識が 普通に苦しむのを観察します
(i) 検出及び行動認識のための文脈表現の所望の性質の違いによる劣等学習
(ii)訓練データ不足による最適化難易度
本稿では,上記の課題を軽減し,時空間的行動検出の効率を向上させるため,分離された一段階ネットワークであるdoadを提案する。
これを実現するために,検出と動作認識を2つのブランチに分離する。
具体的には、アクター検出のための検出表現と、アクション認識のための別のブランチに焦点を当てる。
アクションブランチでは、人とコンテキスト間の相互関係をモデル化するトランスフォーマーベースモジュール(TransPC)を設計する。
自己注意においてよく使われるベクトルベースのドット製品とは異なり、これは新しい行列ベースのキーとアダマールが人文情報をモデル化するための値の上に構築されている。
個人間の関係を利用するだけでなく、コンテキストや相対的な位置情報も考慮する。
AVAとUCF101-24データセットの結果から,本手法は2段階の最先端手法と競合し,高い効率性を示した。
関連論文リスト
- Few-Shot Object Detection with Sparse Context Transformers [37.106378859592965]
少ないショット検出は、少ないラベル付きデータでトレーニングされたモデルを使用してオブジェクトをローカライズするパターン認識における主要なタスクである。
本稿では,ソース領域におけるオブジェクトの知識を効果的に活用し,対象領域内の少数のトレーニング画像からスパースコンテキストを自動的に学習する新しいスパースコンテキスト変換器を提案する。
提案手法を2つの難易度オブジェクト検出ベンチマークで評価し,提案手法が関連する最先端技術と比較して競合性能を得ることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-02-14T17:10:01Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Modulating Localization and Classification for Harmonized Object
Detection [40.82723262074911]
2つのタスクを変調する相互学習フレームワークを提案する。
特に,2つのタスクは,新たな相互ラベル付け戦略によって互いに学習することを余儀なくされる。
COCOデータセットのベースライン検出器に対する大幅なパフォーマンス向上を実現しました。
論文 参考訳(メタデータ) (2021-03-16T10:36:02Z) - Unsupervised Pretraining for Object Detection by Patch Reidentification [72.75287435882798]
教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-08T15:13:59Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Asynchronous Interaction Aggregation for Action Detection [43.34864954534389]
本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
ひとつはインタラクション集約構造(IA)で、複数のタイプのインタラクションをモデル化し統合するための一様パラダイムを採用し、もうひとつはパフォーマンス向上を実現するための非同期メモリ更新アルゴリズム(AMU)です。
論文 参考訳(メタデータ) (2020-04-16T07:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。