論文の概要: ActionHub: A Large-scale Action Video Description Dataset for Zero-shot
Action Recognition
- arxiv url: http://arxiv.org/abs/2401.11654v1
- Date: Mon, 22 Jan 2024 02:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:21:28.163824
- Title: ActionHub: A Large-scale Action Video Description Dataset for Zero-shot
Action Recognition
- Title(参考訳): ActionHub: ゼロショットアクション認識のための大規模アクションビデオ記述データセット
- Authors: Jiaming Zhou, Junwei Liang, Kun-Yu Lin, Jinrui Yang, Wei-Shi Zheng
- Abstract要約: Zero-shot Action Recognition (ZSAR) は、ビデオ間のアライメントモデルと、目に見えないアクションに転送可能なアクションのクラス記述を学習することを目的としている。
本稿では,ZSARのための新しいクロスモダリティ・クロスアクションモデリング(CoCo)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.08592533014102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot action recognition (ZSAR) aims to learn an alignment model between
videos and class descriptions of seen actions that is transferable to unseen
actions. The text queries (class descriptions) used in existing ZSAR works,
however, are often short action names that fail to capture the rich semantics
in the videos, leading to misalignment. With the intuition that video content
descriptions (e.g., video captions) can provide rich contextual information of
visual concepts in videos, we propose to utilize human annotated video
descriptions to enrich the semantics of the class descriptions of each action.
However, all existing action video description datasets are limited in terms of
the number of actions, the semantics of video descriptions, etc. To this end,
we collect a large-scale action video descriptions dataset named ActionHub,
which covers a total of 1,211 common actions and provides 3.6 million action
video descriptions. With the proposed ActionHub dataset, we further propose a
novel Cross-modality and Cross-action Modeling (CoCo) framework for ZSAR, which
consists of a Dual Cross-modality Alignment module and a Cross-action
Invariance Mining module. Specifically, the Dual Cross-modality Alignment
module utilizes both action labels and video descriptions from ActionHub to
obtain rich class semantic features for feature alignment. The Cross-action
Invariance Mining module exploits a cycle-reconstruction process between the
class semantic feature spaces of seen actions and unseen actions, aiming to
guide the model to learn cross-action invariant representations. Extensive
experimental results demonstrate that our CoCo framework significantly
outperforms the state-of-the-art on three popular ZSAR benchmarks (i.e.,
Kinetics-ZSAR, UCF101 and HMDB51) under two different learning protocols in
ZSAR. We will release our code, models, and the proposed ActionHub dataset.
- Abstract(参考訳): Zero-shot Action Recognition (ZSAR) は、ビデオ間のアライメントモデルと、目に見えないアクションに転送可能なアクションのクラス記述を学習することを目的としている。
しかし、既存のZSAR作品で使われているテキストクエリ(クラス記述)は、しばしばビデオ内のリッチなセマンティクスをキャプチャできない短いアクション名であり、誤修正につながる。
映像コンテンツ記述(ビデオキャプションなど)が映像における視覚概念の豊かな文脈情報を提供できるという直観から、人間の注釈付きビデオ記述を用いて、各アクションのクラス記述の意味性を高めることを提案する。
しかし、既存のアクションビデオ記述データセットはすべて、アクションの数やビデオ記述の意味などによって制限されている。
この目的のために、合計1,211の共通アクションをカバーし、360万のアクションビデオ記述を提供するActionHubという大規模なアクションビデオ記述データセットを収集します。
提案するactionhubデータセットでは,2つのクロスモダリティアライメントモジュールとクロスアクション不変マイニングモジュールからなる,zsar用の新しいクロスモダリティ・クロスアクションモデリング(coco)フレームワークも提案する。
具体的には、2つのクロスモダリティアライメントモジュールはactionhubからのアクションラベルとビデオ記述の両方を使用して、機能アライメントのためのリッチなクラスセマンティクス機能を得る。
クロスアクション不変マイニングモジュール(cross-action invariance mining module)は、参照されるアクションのクラスセマンティクス的特徴空間と未知のアクションの間のサイクル再構成プロセスを活用し、モデルにクロスアクション不変表現を学ぶように導くことを目的としている。
我々のCoCoフレームワークは、ZSARの2つの異なる学習プロトコルの下で、一般的な3つのZSARベンチマーク(Kinetics-ZSAR, UCF101, HMDB51)において、その最先端性を著しく上回っている。
コード、モデル、提案されたactionhubデータセットをリリースします。
関連論文リスト
- FCA-RAC: First Cycle Annotated Repetitive Action Counting [30.253568218869237]
我々は、FCA-RAC(First Cycle Annotated Repetitive Action Counting)と呼ばれるフレームワークを提案する。
FCA-RACは、(1)トレーニングビデオに、第1のアクションサイクルの開始と終了と、合計のアクションカウントとをアノテートするラベリング技術を含む。
この手法により、モデルが初期行動サイクルとその後の行動との相関を捉えることができる。
論文 参考訳(メタデータ) (2024-06-18T01:12:43Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Rich Action-semantic Consistent Knowledge for Early Action Prediction [20.866206453146898]
早期行動予測(EAP)は、進行中のビデオにおける行動実行の一部から人間の行動を認識することを目的としている。
独自の部分的あるいは完全なビデオを分割して、任意の進行レベルで進化する新しい部分的ビデオのシリーズを形成する。
The Rich Action-semantic Consistent Knowledge Network (RACK) under the teacher-student framework is proposed for EAP。
論文 参考訳(メタデータ) (2022-01-23T03:39:31Z) - COMPOSER: Compositional Learning of Group Activity in Videos [33.526331969279106]
グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
論文 参考訳(メタデータ) (2021-12-11T01:25:46Z) - Elaborative Rehearsal for Zero-shot Action Recognition [36.84404523161848]
ZSARは、トレーニングサンプルなしでターゲット(見えない)アクションを認識することを目的としている。
アクションクラスを意味的に表現し、見てきたデータから知識を伝達することは依然として困難である。
本稿では,効率的なヒューマンメモリ技術であるElaborative RehearsalにインスパイアされたER強化ZSARモデルを提案する。
論文 参考訳(メタデータ) (2021-08-05T20:02:46Z) - Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文 参考訳(メタデータ) (2020-06-27T09:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。