論文の概要: Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition
- arxiv url: http://arxiv.org/abs/2010.09982v1
- Date: Tue, 20 Oct 2020 03:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 07:03:22.322866
- Title: Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition
- Title(参考訳): 映像認識のための奥行き誘導適応型メタフュージョンネットワーク
- Authors: Yuqian Fu, Li Zhang, Junke Wang, Yanwei Fu and Yu-Gang Jiang
- Abstract要約: わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
- 参考スコア(独自算出の注目度): 86.31412529187243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can easily recognize actions with only a few examples given, while the
existing video recognition models still heavily rely on the large-scale labeled
data inputs. This observation has motivated an increasing interest in few-shot
video action recognition, which aims at learning new actions with only very few
labeled samples. In this paper, we propose a depth guided Adaptive Meta-Fusion
Network for few-shot video recognition which is termed as AMeFu-Net.
Concretely, we tackle the few-shot recognition problem from three aspects:
firstly, we alleviate this extremely data-scarce problem by introducing depth
information as a carrier of the scene, which will bring extra visual
information to our model; secondly, we fuse the representation of original RGB
clips with multiple non-strictly corresponding depth clips sampled by our
temporal asynchronization augmentation mechanism, which synthesizes new
instances at feature-level; thirdly, a novel Depth Guided Adaptive Instance
Normalization (DGAdaIN) fusion module is proposed to fuse the two-stream
modalities efficiently. Additionally, to better mimic the few-shot recognition
process, our model is trained in the meta-learning way. Extensive experiments
on several action recognition benchmarks demonstrate the effectiveness of our
model.
- Abstract(参考訳): 既存のビデオ認識モデルは依然として大規模なラベル付きデータ入力に大きく依存している。
この観察は、わずかなラベル付きサンプルだけで新しいアクションを学習することを目的とした、数発のビデオアクション認識への関心の高まりを動機付けている。
本稿では,AMeFu-Netと呼ばれるビデオ認識のための深度誘導型適応メタフュージョンネットワークを提案する。
Concretely, we tackle the few-shot recognition problem from three aspects: firstly, we alleviate this extremely data-scarce problem by introducing depth information as a carrier of the scene, which will bring extra visual information to our model; secondly, we fuse the representation of original RGB clips with multiple non-strictly corresponding depth clips sampled by our temporal asynchronization augmentation mechanism, which synthesizes new instances at feature-level; thirdly, a novel Depth Guided Adaptive Instance Normalization (DGAdaIN) fusion module is proposed to fuse the two-stream modalities efficiently.
さらに,数発の認識プロセスをよりうまく模倣するために,メタラーニング方式でモデルを訓練する。
いくつかの行動認識ベンチマークに関する広範囲な実験により,本モデルの有効性が示された。
関連論文リスト
- A Survey on Backbones for Deep Video Action Recognition [7.3390139372713445]
アクション認識はインタラクティブなメタバースを構築する上で重要な技術である。
本稿では,ディープニューラルネットワークに基づく行動認識手法について概説する。
本論文では、RGBビデオフレームと光フローのモダリティを入力として使用する2ストリームネットワークと、異なる動作情報を抽出しながらRGBのモダリティを直接活用する3D畳み込みネットワークと、自然言語処理からコンピュータビジョンや映像理解へモデルを導入するトランスフォーマーベースの手法の3つの部分について紹介する。
論文 参考訳(メタデータ) (2024-05-09T07:20:36Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Human Action Recognition Based on Multi-scale Feature Maps from Depth
Video Sequences [12.30399970340689]
深度ビデオシーケンスから人間の行動を認識するために,マルチスケールなモーション情報に着目した新しいフレームワークを提案する。
動作のマルチスケールな静的表現を生成するために,テンプレートとして深度動き画像(DMI)を用いる。
LP-DMI-HOGと呼ばれる多粒性記述子を抽出し、より識別的な特徴を提供する。
論文 参考訳(メタデータ) (2021-01-19T13:46:42Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。