論文の概要: Controllable Video Generation through Global and Local Motion Dynamics
- arxiv url: http://arxiv.org/abs/2204.06558v1
- Date: Wed, 13 Apr 2022 17:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 12:48:07.709915
- Title: Controllable Video Generation through Global and Local Motion Dynamics
- Title(参考訳): グローバル・ローカル・モーションダイナミクスによる制御可能な映像生成
- Authors: Aram Davtyan and Paolo Favaro
- Abstract要約: ビデオシーケンスを教師なしでトレーニングする生成モデルであるGLASSを提案する。
この方法は、フレームを前景の層に分割し、時間とともに前景の遷移を生成することを学習する。
提案手法は,W-Spriteと実データセットの両方で評価し,GLASSが1つの入力画像からリアルな映像シーケンスを生成することができることを確認した。
- 参考スコア(独自算出の注目度): 27.913052825303097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GLASS, a method for Global and Local Action-driven Sequence
Synthesis. GLASS is a generative model that is trained on video sequences in an
unsupervised manner and that can animate an input image at test time. The
method learns to segment frames into foreground-background layers and to
generate transitions of the foregrounds over time through a global and local
action representation. Global actions are explicitly related to 2D shifts,
while local actions are instead related to (both geometric and photometric)
local deformations. GLASS uses a recurrent neural network to transition between
frames and is trained through a reconstruction loss. We also introduce
W-Sprites (Walking Sprites), a novel synthetic dataset with a predefined action
space. We evaluate our method on both W-Sprites and real datasets, and find
that GLASS is able to generate realistic video sequences from a single input
image and to successfully learn a more advanced action space than in prior
work.
- Abstract(参考訳): GLASS(Global and Local Action-driven Sequence Synthesis)を提案する。
GLASSは、教師なしの方法でビデオシーケンスに基づいて訓練され、テスト時に入力画像をアニメーションできる生成モデルである。
この方法は、フレームをフォアグラウンドバックグラウンド層に分割し、グローバルおよびローカルなアクション表現を介して、フォアグラウンドでの遷移を生成することを学習する。
グローバルアクションは2次元シフトに明示的に関連し、局所アクションは(幾何学的および測光的の両方)局所変形に関係している。
GLASSは、リカレントニューラルネットワークを使用してフレーム間の遷移を行い、再構築損失を通じてトレーニングする。
また、予め定義されたアクション空間を持つ新しい合成データセットであるW-Sprites(Walking Sprites)を紹介する。
本手法は,w-sprites と real datasets の両方で評価し,glass が1つの入力画像から現実的な映像列を生成し,より高度な動作空間を学習できることを見出した。
関連論文リスト
- Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation [52.87672306545577]
既存の動き生成法は主に大域運動の直接合成に焦点を当てている。
本研究では,局所動作を微粒化制御信号として利用することにより,グローバルな動き生成を容易にする局所動作誘導型動き拡散モデルを提案する。
本手法は,様々な局所動作と連続誘導重み調整をシームレスに組み合わせる柔軟性を提供する。
論文 参考訳(メタデータ) (2024-07-15T08:35:00Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - MOVIN: Real-time Motion Capture using a Single LiDAR [7.3228874258537875]
我々は,グローバルトラッキングを用いたリアルタイムモーションキャプチャのためのデータ駆動生成法MOVINを提案する。
本フレームワークは,パフォーマーの3次元グローバル情報と局所的な関節の詳細を正確に予測する。
実世界のシナリオでメソッドをデモするために,リアルタイムアプリケーションを実装した。
論文 参考訳(メタデータ) (2023-09-17T16:04:15Z) - TCAM: Temporal Class Activation Maps for Object Localization in
Weakly-Labeled Unconstrained Videos [22.271760669551817]
弱教師付きオブジェクトローカライゼーション(WSVOL)は、オブジェクトクラスのようなグローバルなビデオタグのみを使用して、ビデオ内のオブジェクトの配置を可能にする。
本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。
ビデオの時間的情報を活用するために,新たな時間的CAM (TCAM) 手法を導入し,DLモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T21:20:34Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。