論文の概要: Elaborative Rehearsal for Zero-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2108.02833v1
- Date: Thu, 5 Aug 2021 20:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 01:42:29.616052
- Title: Elaborative Rehearsal for Zero-shot Action Recognition
- Title(参考訳): ゼロショット動作認識のための共同リハーサル
- Authors: Shizhe Chen and Dong Huang
- Abstract要約: ZSARは、トレーニングサンプルなしでターゲット(見えない)アクションを認識することを目的としている。
アクションクラスを意味的に表現し、見てきたデータから知識を伝達することは依然として困難である。
本稿では,効率的なヒューマンメモリ技術であるElaborative RehearsalにインスパイアされたER強化ZSARモデルを提案する。
- 参考スコア(独自算出の注目度): 36.84404523161848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing number of action classes has posed a new challenge for video
understanding, making Zero-Shot Action Recognition (ZSAR) a thriving direction.
The ZSAR task aims to recognize target (unseen) actions without training
examples by leveraging semantic representations to bridge seen and unseen
actions. However, due to the complexity and diversity of actions, it remains
challenging to semantically represent action classes and transfer knowledge
from seen data. In this work, we propose an ER-enhanced ZSAR model inspired by
an effective human memory technique Elaborative Rehearsal (ER), which involves
elaborating a new concept and relating it to known concepts. Specifically, we
expand each action class as an Elaborative Description (ED) sentence, which is
more discriminative than a class name and less costly than manual-defined
attributes. Besides directly aligning class semantics with videos, we
incorporate objects from the video as Elaborative Concepts (EC) to improve
video semantics and generalization from seen actions to unseen actions. Our
ER-enhanced ZSAR model achieves state-of-the-art results on three existing
benchmarks. Moreover, we propose a new ZSAR evaluation protocol on the Kinetics
dataset to overcome limitations of current benchmarks and demonstrate the first
case where ZSAR performance is comparable to few-shot learning baselines on
this more realistic setting. We will release our codes and collected EDs at
https://github.com/DeLightCMU/ElaborativeRehearsal.
- Abstract(参考訳): アクションクラスの増加はビデオ理解に新たな課題をもたらし、Zero-Shot Action Recognition(ZSAR)が繁栄する方向となった。
ZSARタスクは、目に見えないアクションと見えないアクションをブリッジするために意味表現を活用することで、例を訓練せずにターゲット(見えない)アクションを認識することを目的としている。
しかしながら、アクションの複雑さと多様性のため、アクションクラスを意味的に表現し、見たデータから知識を転送することは依然として困難である。
本研究では,新しい概念を考案し,それを既知の概念に関連付ける,効率的なヒューマンメモリ技術であるElaborative Rehearsal(ER)にインスパイアされたER強化ZSARモデルを提案する。
具体的には、各アクションクラスを、クラス名よりも識別性が高く、手動で定義された属性よりもコストが低く、詳細記述(ed)文として拡張する。
クラスのセマンティクスをビデオと直接連携させるだけでなく、ビデオのオブジェクトを詳細概念(ec)として組み込んで、ビデオセマンティクスを改善し、見たアクションから認識できないアクションへと一般化します。
我々のER強化ZSARモデルは既存の3つのベンチマークで最先端の結果を得る。
さらに,Kineeticsデータセット上に新たなZSAR評価プロトコルを提案し,現在のベンチマークの限界を克服し,ZSAR性能が,このより現実的な設定における少数の学習ベースラインに匹敵する最初の事例を示す。
コードとEDはhttps://github.com/DeLightCMU/ElaborativeRehearsal.comで公開します。
関連論文リスト
- Self-supervised Multi-actor Social Activity Understanding in Streaming Videos [6.4149117677272525]
社会活動認識(社会活動認識、Social Activity Recognition、SAR)は、監視や補助ロボティクスといった現実世界のタスクにおいて重要な要素である。
これまでのSARの研究は、高密度に注釈付けされたデータに大きく依存していたが、プライバシーに関する懸念は、現実の環境での適用性を制限している。
本稿では,ストリーミングビデオにおけるSARのマルチアクタ予測学習に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-20T16:33:54Z) - ActionHub: A Large-scale Action Video Description Dataset for Zero-shot
Action Recognition [35.08592533014102]
Zero-shot Action Recognition (ZSAR) は、ビデオ間のアライメントモデルと、目に見えないアクションに転送可能なアクションのクラス記述を学習することを目的としている。
本稿では,ZSARのための新しいクロスモダリティ・クロスアクションモデリング(CoCo)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-22T02:21:26Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Intent Contrastive Learning for Sequential Recommendation [86.54439927038968]
ユーザの意図を表現するために潜伏変数を導入し,クラスタリングにより潜伏変数の分布関数を学習する。
我々は,学習意図を対照的なSSLによってSRモデルに活用し,シーケンスのビューとそれに対応するインテントとの一致を最大化することを提案する。
4つの実世界のデータセットで実施された実験は、提案した学習パラダイムの優位性を示している。
論文 参考訳(メタデータ) (2022-02-05T09:24:13Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Home Action Genome: Cooperative Compositional Action Understanding [33.69990813932372]
アクション認識に関する既存の研究は、アクティビティをビデオで発生したモノリシックなイベントとして扱う。
協調構成行動理解(CCAU)は階層的行動認識のための協調学習フレームワークである。
単サンプルで28.6%のmAPを達成し, 複数ショット動作認識におけるコラーニング合成の有用性を実証した。
論文 参考訳(メタデータ) (2021-05-11T17:42:47Z) - Modular Action Concept Grounding in Semantic Video Prediction [28.917125574895422]
本稿では,セマンティックアクションラベルを用いてインタラクションを記述するセマンティックアクション条件付きビデオ予測のタスクを紹介する。
様々な視覚的概念学習者の構造的組み合わせによって,各抽象ラベルを具現化する。
提案手法は,新たに設計された2つの合成データセットと1つの実世界のデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-23T04:12:22Z) - Learning to Represent Action Values as a Hypergraph on the Action
Vertices [17.811355496708728]
行動値推定は強化学習法(RL)の重要な要素である。
多次元のアクション空間の構造を活用することが、アクションの優れた表現を学ぶための鍵となる要素であると推測する。
Atari 2600 ゲームや、離散化物理制御ベンチマークなど、無数の領域に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-10-28T00:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。