論文の概要: Rich Action-semantic Consistent Knowledge for Early Action Prediction
- arxiv url: http://arxiv.org/abs/2201.09169v3
- Date: Wed, 20 Dec 2023 08:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 22:34:21.247422
- Title: Rich Action-semantic Consistent Knowledge for Early Action Prediction
- Title(参考訳): 早期行動予測のためのリッチアクションセマンティック一貫性知識
- Authors: Xiaoli Liu, Jianqin Yin, Di Guo, and Huaping Liu
- Abstract要約: 早期行動予測(EAP)は、進行中のビデオにおける行動実行の一部から人間の行動を認識することを目的としている。
独自の部分的あるいは完全なビデオを分割して、任意の進行レベルで進化する新しい部分的ビデオのシリーズを形成する。
The Rich Action-semantic Consistent Knowledge Network (RACK) under the teacher-student framework is proposed for EAP。
- 参考スコア(独自算出の注目度): 20.866206453146898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early action prediction (EAP) aims to recognize human actions from a part of
action execution in ongoing videos, which is an important task for many
practical applications. Most prior works treat partial or full videos as a
whole, ignoring rich action knowledge hidden in videos, i.e., semantic
consistencies among different partial videos. In contrast, we partition
original partial or full videos to form a new series of partial videos and mine
the Action-Semantic Consistent Knowledge (ASCK) among these new partial videos
evolving in arbitrary progress levels. Moreover, a novel Rich Action-semantic
Consistent Knowledge network (RACK) under the teacher-student framework is
proposed for EAP. Firstly, we use a two-stream pre-trained model to extract
features of videos. Secondly, we treat the RGB or flow features of the partial
videos as nodes and their action semantic consistencies as edges. Next, we
build a bi-directional semantic graph for the teacher network and a
single-directional semantic graph for the student network to model rich ASCK
among partial videos. The MSE and MMD losses are incorporated as our
distillation loss to enrich the ASCK of partial videos from the teacher to the
student network. Finally, we obtain the final prediction by summering the
logits of different subnetworks and applying a softmax layer. Extensive
experiments and ablative studies have been conducted, demonstrating the
effectiveness of modeling rich ASCK for EAP. With the proposed RACK, we have
achieved state-of-the-art performance on three benchmarks. The code is
available at https://github.com/lily2lab/RACK.git.
- Abstract(参考訳): 早期行動予測(EAP)は、進行中のビデオにおける行動実行の一部から人間の行動を認識することを目的としている。
以前の作品のほとんどは、部分的または完全なビデオ全体を扱い、ビデオに隠されたリッチなアクション知識を無視している。
対照的に、オリジナルまたはフルビデオは、新しい部分的ビデオのシリーズを形成するために分割し、任意の進行レベルで進化するこれらの新しい部分的ビデオのうち、アクション・セマンティック一貫性知識(ASCK)をマイニングする。
さらに,教師・学生の枠組みに基づくRACK(Rich Action-Semantic Consistent Knowledge Network)を提案する。
まず,2ストリーム事前学習モデルを用いて映像の特徴を抽出する。
次に,部分映像のrgb特徴やフロー特徴をノードとして扱い,その動作意味をエッジとして扱う。
次に,教師ネットワークのための双方向意味グラフと,学生ネットワークのための単方向意味グラフを構築し,部分的ビデオ間のリッチ asck をモデル化する。
MSEとMDDの損失は,教師から学生ネットワークへの部分的なビデオのASCKを豊かにする蒸留損失として組み込まれている。
最後に,異なるサブネットワークのロジットをサマーリングし,ソフトマックス層を適用して最終予測を行う。
EAPのためのリッチASCKのモデリングの有効性を実証する大規模な実験とアブレーション研究が実施されている。
提案したRACKでは、3つのベンチマークで最先端のパフォーマンスを達成した。
コードはhttps://github.com/lily2lab/rack.gitで入手できる。
関連論文リスト
- ActionHub: A Large-scale Action Video Description Dataset for Zero-shot
Action Recognition [35.08592533014102]
Zero-shot Action Recognition (ZSAR) は、ビデオ間のアライメントモデルと、目に見えないアクションに転送可能なアクションのクラス記述を学習することを目的としている。
本稿では,ZSARのための新しいクロスモダリティ・クロスアクションモデリング(CoCo)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-22T02:21:26Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。