論文の概要: Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization
- arxiv url: http://arxiv.org/abs/2303.11003v1
- Date: Mon, 20 Mar 2023 10:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:53:39.230619
- Title: Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization
- Title(参考訳): ビデオ高効率一般化のためのチューブレット結合型自己スーパービジョン
- Authors: Fida Mohammad Thoker, Hazel Doughty, Cees Snoek
- Abstract要約: 動きに着目した映像表現を学習するための自己教師付き手法を提案する。
我々は、同じローカルモーションダイナミクスを持つビデオ間の類似性を学ぶが、それ以外は異なる外観を持つ。
トレーニング済みビデオの25%しか使用していない場合,本手法では性能が維持される。
- 参考スコア(独自算出の注目度): 21.959479086155742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a self-supervised method for learning motion-focused video
representations. Existing approaches minimize distances between temporally
augmented videos, which maintain high spatial similarity. We instead propose to
learn similarities between videos with identical local motion dynamics but an
otherwise different appearance. We do so by adding synthetic motion
trajectories to videos which we refer to as tubelets. By simulating different
tubelet motions and applying transformations, such as scaling and rotation, we
introduce motion patterns beyond what is present in the pretraining data. This
allows us to learn a video representation that is remarkably data-efficient:
our approach maintains performance when using only 25% of the pretraining
videos. Experiments on 10 diverse downstream settings demonstrate our
competitive performance and generalizability to new domains and fine-grained
actions.
- Abstract(参考訳): 動きに着目した映像表現を学習するための自己教師付き手法を提案する。
既存のアプローチでは、時間的に拡張されたビデオ間の距離を最小化し、空間的類似性を維持する。
代わりに、同じローカルモーションダイナミクスを持つビデオ間の類似性を学ぶことを提案する。
ビデオに合成モーショントラジェクトリを加えて、それをチューブと呼ぶ。
異なるチューブレットの動きをシミュレートし、スケーリングや回転などの変換を適用することにより、事前学習データに現われる以上の動きパターンを導入する。
当社のアプローチでは,事前学習したビデオの25%しか使用していない場合に,パフォーマンスを維持できる。
10の異なる下流設定の実験では、新しいドメインに対する競争性能と一般化性、きめ細かいアクションが示されています。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Motion-Augmented Self-Training for Video Recognition at Smaller Scale [32.73585552425734]
我々はMotionFitと呼ばれる最初のモーション強化自己訓練体制を提案します。
我々は,大規模な非ラベル映像コレクションに対して擬似ラベルを生成し,これらの擬似ラベルを出現モデルで予測し,知識の伝達を可能にした。
アクション認識やクリップ検索などのビデオ下流タスクに適した,強いモーション提示表現モデルを得る。
論文 参考訳(メタデータ) (2021-05-04T17:43:19Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。