論文の概要: InMoDeGAN: Interpretable Motion Decomposition Generative Adversarial
Network for Video Generation
- arxiv url: http://arxiv.org/abs/2101.03049v1
- Date: Fri, 8 Jan 2021 15:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 05:06:03.665259
- Title: InMoDeGAN: Interpretable Motion Decomposition Generative Adversarial
Network for Video Generation
- Title(参考訳): InMoDeGAN:ビデオ生成のための解釈可能な動き分解生成用逆数ネットワーク
- Authors: Yaohui Wang, Francois Bremond, Antitza Dantcheva
- Abstract要約: 非条件のビデオ生成モデルであるInMoDeGANは(a)高品質なビデオを生成する。
生成したサンプルの制御を可能にするセマンティックなサブスペースにモーションを分解します。
- 参考スコア(独自算出の注目度): 11.247580943940916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce an unconditional video generative model,
InMoDeGAN, targeted to (a) generate high quality videos, as well as to (b)
allow for interpretation of the latent space. For the latter, we place emphasis
on interpreting and manipulating motion. Towards this, we decompose motion into
semantic sub-spaces, which allow for control of generated samples. We design
the architecture of InMoDeGAN-generator in accordance to proposed Linear Motion
Decomposition, which carries the assumption that motion can be represented by a
dictionary, with related vectors forming an orthogonal basis in the latent
space. Each vector in the basis represents a semantic sub-space. In addition, a
Temporal Pyramid Discriminator analyzes videos at different temporal
resolutions. Extensive quantitative and qualitative analysis shows that our
model systematically and significantly outperforms state-of-the-art methods on
the VoxCeleb2-mini and BAIR-robot datasets w.r.t. video quality related to (a).
Towards (b) we present experimental results, confirming that decomposed
sub-spaces are interpretable and moreover, generated motion is controllable.
- Abstract(参考訳): 本稿では,(a)高品質な映像を生成すること,(b)潜在空間の解釈を可能にすることを目的とした,無条件ビデオ生成モデルinmodeganを提案する。
後者では,動作の解釈と操作に重点を置いている。
そこで我々は,動作をセマンティックな部分空間に分解し,生成したサンプルの制御を可能にする。
動きを辞書で表現できると仮定し, 関連ベクトルが潜在空間に直交基底を形成するような線形運動分解法に基づいて, インモデガン生成器のアーキテクチャを設計する。
基底の各ベクトルは意味的部分空間を表す。
さらに、時間ピラミッド判別器は、異なる時間分解能でビデオを解析する。
我々のモデルは,VoxCeleb2-mini および BAIR-robot データセット w.r.t において,最先端の手法を体系的に,かつ著しく上回ることを示す。
a)に関連するビデオの品質。
b) 分割された部分空間が解釈可能であり、さらに生成された動きが制御可能であることを確認する実験結果を示す。
関連論文リスト
- Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。
実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文 参考訳(メタデータ) (2024-10-14T05:34:32Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Segmenting the motion components of a video: A long-term unsupervised model [5.801044612920816]
ビデオシーケンス上でのコヒーレントで安定した動作セグメンテーションを提供したいと思っています。
完全教師なし方式で動作する新しい長期光時間モデルを提案する。
4つのVOSに関する実験を報告し、競争力のある定量的結果を示した。
論文 参考訳(メタデータ) (2023-10-02T09:33:54Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Learning a Generative Motion Model from Image Sequences based on a
Latent Motion Matrix [8.774604259603302]
画像列の時間的登録をシミュレートして確率的動きモデルを学ぶ。
3つの最先端登録アルゴリズムと比較して,登録精度と時間的にスムーズな整合性が改善された。
また, フレームの欠落のあるシーケンスからの動作再構成を改良し, 動作解析, シミュレーション, 超解像に対するモデルの適用性を実証した。
論文 参考訳(メタデータ) (2020-11-03T14:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。