論文の概要: A Comprehensive Review of Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2407.14744v1
- Date: Sat, 20 Jul 2024 03:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 21:04:01.100878
- Title: A Comprehensive Review of Few-shot Action Recognition
- Title(参考訳): Few-shot行動認識の概観
- Authors: Yuyang Wanyan, Xiaoshan Yang, Weiming Dong, Changsheng Xu,
- Abstract要約: アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
- 参考スコア(独自算出の注目度): 64.47305887411275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Few-shot action recognition aims to address the high cost and impracticality of manually labeling complex and variable video data in action recognition. It requires accurately classifying human actions in videos using only a few labeled examples per class. Compared to few-shot learning in image scenarios, few-shot action recognition is more challenging due to the intrinsic complexity of video data. Recognizing actions involves modeling intricate temporal sequences and extracting rich semantic information, which goes beyond mere human and object identification in each frame. Furthermore, the issue of intra-class variance becomes particularly pronounced with limited video samples, complicating the learning of representative features for novel action categories. To overcome these challenges, numerous approaches have driven significant advancements in few-shot action recognition, which underscores the need for a comprehensive survey. Unlike early surveys that focus on few-shot image or text classification, we deeply consider the unique challenges of few-shot action recognition. In this survey, we review a wide variety of recent methods and summarize the general framework. Additionally, the survey presents the commonly used benchmarks and discusses relevant advanced topics and promising future directions. We hope this survey can serve as a valuable resource for researchers, offering essential guidance to newcomers and stimulating seasoned researchers with fresh insights.
- Abstract(参考訳): アクション認識における複雑なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
画像シナリオでの少数ショット学習と比較して、ビデオデータの本質的な複雑さのため、少数ショットのアクション認識はより困難である。
行動を認識するには、複雑な時間的シーケンスをモデル化し、各フレームにおける人間と物体の識別以上のリッチな意味情報を抽出する。
さらに,クラス内変動の問題はビデオの限られたサンプルと顕著に一致し,新しいアクションカテゴリの代表的特徴の学習が複雑になる。
これらの課題を克服するために、多くのアプローチが数発のアクション認識において大きな進歩をもたらしており、包括的な調査の必要性を浮き彫りにしている。
少数ショット画像やテキスト分類に焦点を当てた初期の調査とは異なり、少数ショットのアクション認識の独特な課題を深く検討している。
本稿では,近年の多種多様な手法について概説し,概説する。
さらに、この調査では、一般的に使用されているベンチマークを示し、関連する高度なトピックと将来的な方向性について論じている。
この調査が研究者にとって貴重な情報源になり、新入生に必須のガイダンスを提供し、新しい洞察を持つ経験豊富な研究者に刺激を与えてくれることを期待している。
関連論文リスト
- About Time: Advances, Challenges, and Outlooks of Action Understanding [57.76390141287026]
この調査は、様々なタスクにおけるユニモーダルおよびマルチモーダルな行動理解の進歩を包括的にレビューする。
我々は,現在普及している課題,広く採用されているデータセットの概要,そして最近の進歩を重視したセミナー作品の調査に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T18:09:27Z) - Classification Matters: Improving Video Action Detection with Class-Specific Attention [61.14469113965433]
ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。
一般的な手法が、分類のための特徴をどう形成するかを分析し、アクター領域の優先順位付けを行う。
本稿では,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。
論文 参考訳(メタデータ) (2024-07-29T04:43:58Z) - ActAR: Actor-Driven Pose Embeddings for Video Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、ビデオ理解のコアタスクの1つである。
我々は,赤外スペクトルにおける効率的な人間の行動を認識することを同時に学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-19T05:12:24Z) - Few-Shot Object Detection: A Survey [4.266990593059534]
オブジェクト検出は、ターゲットドメイン内の新しいカテゴリの少数のオブジェクトインスタンスから学ぶことを目的としている。
トレーニング手法とアーキテクチャレイアウトに応じてアプローチを分類する。
一般的なデータセットとその評価プロトコルを導入し,ベンチマーク結果を解析する。
論文 参考訳(メタデータ) (2021-12-22T07:08:53Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - A Grid-based Representation for Human Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、コンピュータビジョンにおける基本的な研究課題である。
本稿では,行動の最も識別性の高い外観情報を効率的に符号化する行動認識手法を提案する。
提案手法は, モデルが人間の行動を正確に認識できることを示すために, いくつかのベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-10-17T18:25:00Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - TAEN: Temporal Aware Embedding Network for Few-Shot Action Recognition [10.07962673311661]
短時間の動作認識のためのTAEN(Aware Temporal Embedding Network)を提案する。
映像分類と時間的行動検出の2つの課題に対するTAENの有効性を実証した。
ほんの数枚の完全に接続されたレイヤのトレーニングでは、いくつかのショットビデオ分類と時間的検出タスクの両方で、先行技術に匹敵する結果に到達します。
論文 参考訳(メタデータ) (2020-04-21T16:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。