論文の概要: Click to Move: Controlling Video Generation with Sparse Motion
- arxiv url: http://arxiv.org/abs/2108.08815v1
- Date: Thu, 19 Aug 2021 17:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:45:11.814410
- Title: Click to Move: Controlling Video Generation with Sparse Motion
- Title(参考訳): click to move: スローモーションでビデオ生成を制御する
- Authors: Pierfrancesco Ardino, Marco De Nadai, Bruno Lepri, Elisa Ricci and
St\'ephane Lathuili\`ere
- Abstract要約: Click to Move (C2M)は、ユーザーがマウスクリックで合成ビデオの動きを制御できるビデオ生成の新しいフレームワークである。
本モデルでは,初期フレーム,対応するセグメンテーションマップ,ユーザが提供する入力を符号化するスパース動作ベクトルを入力として受信する。
与えられたフレームから始まり、ユーザ入力と整合したモーションで、もっともらしいビデオシーケンスを出力する。
- 参考スコア(独自算出の注目度): 30.437648200928603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Click to Move (C2M), a novel framework for video
generation where the user can control the motion of the synthesized video
through mouse clicks specifying simple object trajectories of the key objects
in the scene. Our model receives as input an initial frame, its corresponding
segmentation map and the sparse motion vectors encoding the input provided by
the user. It outputs a plausible video sequence starting from the given frame
and with a motion that is consistent with user input. Notably, our proposed
deep architecture incorporates a Graph Convolution Network (GCN) modelling the
movements of all the objects in the scene in a holistic manner and effectively
combining the sparse user motion information and image features. Experimental
results show that C2M outperforms existing methods on two publicly available
datasets, thus demonstrating the effectiveness of our GCN framework at
modelling object interactions. The source code is publicly available at
https://github.com/PierfrancescoArdino/C2M.
- Abstract(参考訳): 本稿では,Click to Move(C2M)について紹介する。C2Mは,シーン内のキーオブジェクトの単純なオブジェクトトラジェクトリを指定するマウスクリックにより,ユーザが合成ビデオの動きを制御できる,ビデオ生成の新しいフレームワークである。
本モデルでは,初期フレーム,対応するセグメンテーションマップ,ユーザが提供する入力を符号化するスパース動作ベクトルを入力として受信する。
所定のフレームから始まり、ユーザの入力と一致する動きで、妥当なビデオシーケンスを出力する。
特に,提案したディープアーキテクチャでは,全オブジェクトの動作を全体論的にモデル化するグラフ畳み込みネットワーク(GCN)を導入し,スパースなユーザ動作情報と画像特徴を効果的に組み合わせている。
実験の結果,C2Mは2つの公開データセット上で既存の手法よりも優れており,オブジェクト相互作用のモデル化におけるGCNフレームワークの有効性が示された。
ソースコードはhttps://github.com/PierfrancescoArdino/C2Mで公開されている。
関連論文リスト
- Framer: Interactive Frame Interpolation [73.06734414930227]
Framerのターゲットは、ユーザのクリエイティビティに応じて、2つのイメージ間のスムーズな遷移フレームを生成することだ。
提案手法は,選択したキーポイントの軌道を調整し,遷移過程のカスタマイズを支援する。
ここでは,キーポイントと軌道を自動的に推定するモジュールを導入する。
論文 参考訳(メタデータ) (2024-10-24T17:59:51Z) - DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [42.506988751934685]
本研究では、特定の主題と動きの軌跡でビデオを生成することができるゼロショットビデオカスタマイズフレームワークDreamVideo-2を提案する。
具体的には,対象学習におけるモデル固有の能力を活用する参照アテンションを導入する。
我々は,ボックスマスクの頑健な動作信号を完全に活用して,高精度な動作制御を実現するためのマスク誘導型モーションモジュールを考案した。
論文 参考訳(メタデータ) (2024-10-17T17:52:57Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Motion Transformer for Unsupervised Image Animation [37.35527776043379]
画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法は、通常、運動情報を予測するために畳み込みニューラルネットワーク(CNN)を使用する。
本稿では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:04:58Z) - Temporal View Synthesis of Dynamic Scenes through 3D Object Motion
Estimation with Multi-Plane Images [8.185918509343816]
本稿では,ビデオの次のフレームを予測することを目的として,時間的視点合成(TVS)の問題について検討する。
本研究では,ユーザとオブジェクトの両方が動いている動的シーンのTVSについて考察する。
過去のフレームにおける3次元物体の動きを分離・推定し,その外挿により物体の動きを予測する。
論文 参考訳(メタデータ) (2022-08-19T17:40:13Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Betrayed by Motion: Camouflaged Object Discovery via Motion Segmentation [93.22300146395536]
本研究では,映像中のキャモフラージュされた物体を検出する計算アーキテクチャを設計し,特に物体のセグメンテーションを行うために動作情報を活用する。
最初の大規模な移動カモフラージュ動物(MoCA)ビデオデータセットを収集した。
提案手法の有効性を実証し,動作のみに依存して,DAVIS2016上の教師なしセグメンテーションプロトコル上での競合性能を実現する。
論文 参考訳(メタデータ) (2020-11-23T18:59:08Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。