論文の概要: Towards Tokenized Human Dynamics Representation
- arxiv url: http://arxiv.org/abs/2111.11433v1
- Date: Mon, 22 Nov 2021 18:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:09:47.566243
- Title: Towards Tokenized Human Dynamics Representation
- Title(参考訳): 人間の動力学表現のトークン化に向けて
- Authors: Kenneth Li, Xiao Sun, Zhirong Wu, Fangyun Wei, Stephen Lin
- Abstract要約: 我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
- 参考スコア(独自算出の注目度): 41.75534387530019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For human action understanding, a popular research direction is to analyze
short video clips with unambiguous semantic content, such as jumping and
drinking. However, methods for understanding short semantic actions cannot be
directly translated to long human dynamics such as dancing, where it becomes
challenging even to label the human movements semantically. Meanwhile, the
natural language processing (NLP) community has made progress in solving a
similar challenge of annotation scarcity by large-scale pre-training, which
improves several downstream tasks with one model. In this work, we study how to
segment and cluster videos into recurring temporal patterns in a
self-supervised way, namely acton discovery, the main roadblock towards video
tokenization. We propose a two-stage framework that first obtains a frame-wise
representation by contrasting two augmented views of video frames conditioned
on their temporal context. The frame-wise representations across a collection
of videos are then clustered by K-means. Actons are then automatically
extracted by forming a continuous motion sequence from frames within the same
cluster. We evaluate the frame-wise representation learning step by Kendall's
Tau and the lexicon building step by normalized mutual information and language
entropy. We also study three applications of this tokenization: genre
classification, action segmentation, and action composition. On the AIST++ and
PKU-MMD datasets, actons bring significant performance improvements compared to
several baselines.
- Abstract(参考訳): 人間の行動を理解するためには、ジャンプや飲酒など、あいまいなセマンティックな内容の短いビデオクリップを分析することが一般的である。
しかし、短い意味的動作を理解する方法は、ダンスのような長い人間のダイナミクスに直接翻訳できないため、人間の動きを意味的にラベル付けすることは困難になる。
一方、自然言語処理(NLP)コミュニティは、大規模事前学習によるアノテーション不足という同様の課題を解決し、複数の下流タスクを1つのモデルで改善している。
そこで本研究では,ビデオトークン化に向けた主要な障害であるアクトン発見を自己教師付き方式で,映像を時間的パターンに分割し,クラスタ化する方法について検討する。
本研究では,まず,時間的文脈を条件とした映像フレームの2つの拡張ビューを対比して,フレーム毎の表現を得る2段階のフレームワークを提案する。
ビデオの集合にまたがるフレームワイド表現は、K平均によってクラスタ化される。
アクトンは、同じクラスタ内のフレームから連続した動き列を形成して自動的に抽出される。
相互情報と言語エントロピーの正規化によって,kendall の tau と lexicon 構築ステップによるフレーム指向表現学習ステップを評価する。
また,このトークン化の応用として,ジャンル分類,アクションセグメンテーション,アクションコンポジションの3つを検討した。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
関連論文リスト
- HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。