論文の概要: Unfolding Videos Dynamics via Taylor Expansion
- arxiv url: http://arxiv.org/abs/2409.02371v2
- Date: Sat, 7 Sep 2024 16:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:26:07.077521
- Title: Unfolding Videos Dynamics via Taylor Expansion
- Title(参考訳): Taylor Expansionによるビデオの展開
- Authors: Siyi Chen, Minkyu Choi, Zesen Zhao, Kuan Han, Qing Qu, Zhongming Liu,
- Abstract要約: ビデオの自己教師型動的学習戦略について紹介する: インスタンス識別のためのビデオ時間差分法(ViDiDi)
ViDiDiは、フレームシーケンスの時間的デリバティブのさまざまな順序を通して、ビデオの異なる側面を観察する。
ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを学習する。
- 参考スコア(独自算出の注目度): 5.723852805622308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Taking inspiration from physical motion, we present a new self-supervised dynamics learning strategy for videos: Video Time-Differentiation for Instance Discrimination (ViDiDi). ViDiDi is a simple and data-efficient strategy, readily applicable to existing self-supervised video representation learning frameworks based on instance discrimination. At its core, ViDiDi observes different aspects of a video through various orders of temporal derivatives of its frame sequence. These derivatives, along with the original frames, support the Taylor series expansion of the underlying continuous dynamics at discrete times, where higher-order derivatives emphasize higher-order motion features. ViDiDi learns a single neural network that encodes a video and its temporal derivatives into consistent embeddings following a balanced alternating learning algorithm. By learning consistent representations for original frames and derivatives, the encoder is steered to emphasize motion features over static backgrounds and uncover the hidden dynamics in original frames. Hence, video representations are better separated by dynamic features. We integrate ViDiDi into existing instance discrimination frameworks (VICReg, BYOL, and SimCLR) for pretraining on UCF101 or Kinetics and test on standard benchmarks including video retrieval, action recognition, and action detection. The performances are enhanced by a significant margin without the need for large models or extensive datasets.
- Abstract(参考訳): 身体運動からインスピレーションを得て、ビデオのための新しい自己教師型動的学習戦略を示す: インスタンス識別のためのビデオ時間差分法(ViDiDi)。
ViDiDiは、シンプルでデータ効率のよい戦略であり、インスタンス識別に基づいて、既存の自己教師付きビデオ表現学習フレームワークに容易に適用できる。
中心となるViDiDiは、フレームシーケンスの様々な時間的デリバティブを通して、ビデオのさまざまな側面を観察する。
これらの微分は、元のフレームとともに、高階微分が高階運動特徴を強調する離散時間における基礎となる連続力学のテイラー級数展開をサポートする。
ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを、バランスの取れた交互学習アルゴリズムに従って学習する。
元のフレームとデリバティブの一貫性のある表現を学習することにより、エンコーダは静的な背景よりも動きの特徴を強調し、元のフレームに隠れたダイナミクスを明らかにする。
したがって、ビデオ表現は動的な特徴によってより分離される。
我々は、既存のインスタンス識別フレームワーク(VICReg、BYOL、SimCLR)にViDiDiを統合し、UCF101やKineticsで事前トレーニングを行い、ビデオ検索、アクション認識、アクション検出などの標準ベンチマークでテストする。
大規模なモデルや広範なデータセットを必要とせずに、大幅なマージンでパフォーマンスが向上する。
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Dynamic Appearance: A Video Representation for Action Recognition with
Joint Training [11.746833714322154]
本稿では,映像中の動きに関連する外観情報を要約した新しい概念である動的外観(DA)を紹介する。
生のビデオデータからダイナミックな外観を抽出する手法を,効率的な映像理解の手段として検討する。
4つの行動認識ベンチマークにおいて、広範囲な実験結果を提供する。
論文 参考訳(メタデータ) (2022-11-23T07:16:16Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - Exploring Discontinuity for Video Frame Interpolation [7.061238509514182]
本稿では,既存のディープラーニングベースのVFIアーキテクチャを不連続動作に対して堅牢にするための3つの手法を提案する。
まず、フィギュア・テキスト・ミキシング(FTM)と呼ばれる新しいデータ拡張戦略によって、モデルが不連続な動きを学習できるようにする。
第二に,連続した動きと不連続な動きの領域を密に区別する不連続写像 (D-map) と呼ばれる写像を予測する,単純だが効果的なモジュールを提案する。
論文 参考訳(メタデータ) (2022-02-15T10:17:02Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。