論文の概要: ASCNet: Action Semantic Consistent Learning of Arbitrary Progress Levels
for Early Action Prediction
- arxiv url: http://arxiv.org/abs/2201.09169v1
- Date: Sun, 23 Jan 2022 03:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 15:51:10.690066
- Title: ASCNet: Action Semantic Consistent Learning of Arbitrary Progress Levels
for Early Action Prediction
- Title(参考訳): ASCNet:早期行動予測のための任意進行レベルのアクションセマンティック一貫性学習
- Authors: Xiaoli Liu, Di Guo, Jianqin Yin
- Abstract要約: 早期行動予測は、行動実行の一部のみから人間の行動を認識することを目的としている。
独自の部分的あるいは完全なビデオを分割して、任意の進行レベルで進化する新しい部分的ビデオのシリーズを形成する。
早期行動予測のために,教師・学生の枠組みに基づく新しい行動意味一貫性学習ネットワーク (ASCNet) を提案する。
- 参考スコア(独自算出の注目度): 12.635653944016147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early action prediction aims to recognize human actions from only a part of
action execution, which is an important video analysis task for many practical
applications. Most prior works treat partial or full videos as a whole, which
neglects the semantic consistencies among partial videos of various progress
levels due to their large intra-class variances. In contrast, we partition
original partial or full videos to form a series of new partial videos and mine
the Action Semantic Consistent Knowledge (ASCK) among these new partial videos
evolving in arbitrary progress levels. Moreover, a novel Action Semantic
Consistent learning network (ASCNet) under the teacher-student framework is
proposed for early action prediction. Specifically, we treat partial videos as
nodes and their action semantic consistencies as edges. Then we build a
bi-directional fully connected graph for the teacher network and a
single-directional fully connected graph for the student network to model ASCK
among partial videos. The MSE and MMD losses are incorporated as our
distillation loss to further transfer the ASCK from the teacher to the student
network. Extensive experiments and ablative studies have been conducted,
demonstrating the effectiveness of modeling ASCK for early action prediction.
With the proposed ASCNet, we have achieved state-of-the-art performance on two
benchmarks. The code will be released if the paper is accepted.
- Abstract(参考訳): 早期行動予測は、アクション実行の一部のみから人間の行動を認識することを目的としており、これは多くの実用的なアプリケーションにおいて重要なビデオ解析タスクである。
多くの先行研究は、部分的または完全なビデオ全体を扱い、クラス内の大きなばらつきのために、様々な進行レベルの部分的なビデオのセマンティックな相違を無視する。
対照的に、オリジナルまたはフルビデオは、新しい部分的ビデオのシリーズを形成するために分割し、任意の進行レベルで進化するこれらの新しい部分的ビデオのうち、アクションセマンティック一貫性知識(ASCK)をマイニングする。
さらに,早期行動予測のために,教師・学生の枠組みに基づく新しい行動意味一貫性学習ネットワーク(ASCNet)を提案する。
具体的には,部分映像をノードとして,動作意味をエッジとして扱う。
次に,教師ネットワーク用双方向完全連結グラフと,学生ネットワーク用一方向完全連結グラフを構築し,部分ビデオ間でASCKをモデル化する。
mseとmmdの損失は我々の蒸留損失として組み込まれており、教師から生徒ネットワークへさらにasckを転送している。
早期行動予測のためのASCKモデリングの有効性を実証する大規模な実験とアブレーション研究が実施されている。
提案したASCNetでは、2つのベンチマークで最先端のパフォーマンスを達成した。
論文が受け入れられれば、コードはリリースされます。
関連論文リスト
- ActionHub: A Large-scale Action Video Description Dataset for Zero-shot
Action Recognition [35.08592533014102]
Zero-shot Action Recognition (ZSAR) は、ビデオ間のアライメントモデルと、目に見えないアクションに転送可能なアクションのクラス記述を学習することを目的としている。
本稿では,ZSARのための新しいクロスモダリティ・クロスアクションモデリング(CoCo)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-22T02:21:26Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。