Fugu-MT 論文翻訳(概要): Self-Supervised Equivariant Scene Synthesis from Video

論文の概要: Self-Supervised Equivariant Scene Synthesis from Video

arxiv url: http://arxiv.org/abs/2102.00863v1
Date: Mon, 1 Feb 2021 14:17:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-03 01:37:04.450387
Title: Self-Supervised Equivariant Scene Synthesis from Video
Title（参考訳）: 映像からの自己監督等変性シーン合成
Authors: Cinjon Resnick, Or Litany, Cosmas Hei{\ss}, Hugo Larochelle, Joan Bruna, Kyunghyun Cho
Abstract要約: 本稿では,映像からシーン表現を学習するフレームワークを提案する。トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
参考スコア（独自算出の注目度）: 84.15595573718925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a self-supervised framework to learn scene representations from video that are automatically delineated into background, characters, and their animations. Our method capitalizes on moving characters being equivariant with respect to their transformation across frames and the background being constant with respect to that same transformation. After training, we can manipulate image encodings in real time to create unseen combinations of the delineated components. As far as we know, we are the first method to perform unsupervised extraction and synthesis of interpretable background, character, and animation. We demonstrate results on three datasets: Moving MNIST with backgrounds, 2D video game sprites, and Fashion Modeling.
Abstract（参考訳）: 本研究では,背景,キャラクタ,アニメーションに自動的に区切られた映像からシーン表現を学習するための自己教師付きフレームワークを提案する。本手法は,フレーム間の変換に対して等変性を持ち,背景が同じ変換に対して一定であることに着目した。トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを作成できます。私たちが知る限り、我々は、解釈可能な背景、キャラクタ、アニメーションの教師なし抽出と合成を行う最初の方法である。我々は,背景付きmnistの移動,2次元ビデオゲームスプライト,ファッションモデリングという3つのデータセットで結果を示す。

関連論文リスト

FairyGen: Storied Cartoon Video from a Single Child-Drawn Character [15.701180508477679]
本研究では,一人の子どもの絵から物語駆動のマンガ映像を自動生成するFairyGenを提案する。以前のストーリーテリング方法とは異なり、FairyGenはスタイル化された背景生成から文字モデリングを明示的に切り離している。我々のシステムは、スタイリスティックに忠実で、物語的に構造化された自然運動のアニメーションを生成する。
論文参考訳（メタデータ） (2025-06-26T13:58:16Z)
CFSynthesis: Controllable and Free-view 3D Human Video Synthesis [57.561237409603066]
CFSynthesisは、カスタマイズ可能な属性で高品質なヒューマンビデオを生成するための新しいフレームワークである。本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。複数のデータセットの結果から,複雑な人間のアニメーションにおいて,CFS合成が最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-12-15T05:57:36Z)
Replace Anyone in Videos [82.37852750357331]
ReplaceAnyoneフレームワークは、複雑な背景を特徴とする、局所的な人間の置換と挿入に焦点を当てたフレームワークである。我々は,このタスクを,一貫したエンド・ツー・エンドビデオ拡散アーキテクチャを用いて,ポーズガイダンスを用いた画像条件付きビデオ塗装パラダイムとして定式化する。提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
論文参考訳（メタデータ） (2024-09-30T03:27:33Z)
Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文参考訳（メタデータ） (2024-04-21T14:43:31Z)
Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos [47.97168047776216]
そこで,本研究では,生の未表示オンラインビデオから3次元動物運動の合成モデルを学習するための新しい手法を提案する。我々のモデルは、自己教師付き画像の特徴から抽出した意味的対応を利用して、ラベルなしのウェブビデオクリップの集合から純粋に学習する。
論文参考訳（メタデータ） (2023-12-21T06:44:18Z)
Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文参考訳（メタデータ） (2023-07-07T21:38:50Z)
Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos [107.65147103102662]
本研究では、ポーズ制御可能なキャラクタビデオを得るために、データセット(ポーズペアとポーズフリービデオ)と事前訓練されたテキスト・ツー・イメージ(T2I)モデルを利用する。具体的には、第1段階では、キーポイントと画像のペアのみが制御可能なテキストと画像の生成にのみ使用される。第2段階では、学習可能な時間的自己アテンションと修正されたクロスフレーム自己アテンションブロックを追加することで、ポーズのないビデオデータセットを介して、上記のネットワークの動きを微調整する。
論文参考訳（メタデータ） (2023-04-03T17:55:14Z)
Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文参考訳（メタデータ） (2020-12-23T18:50:42Z)
Learned Equivariant Rendering without Transformation Supervision [105.15592625987911]
本稿では,映像からシーン表現を学習するフレームワークを提案する。トレーニング後、シーンをリアルタイムで操作してレンダリングすることで、オブジェクト、変換、バックグラウンドの目に見えない組み合わせを作ることができます。
論文参考訳（メタデータ） (2020-11-11T14:05:05Z)
Unpaired Motion Style Transfer from Video to Animation [74.15550388701833]
1つのアニメーションクリップからもう1つのアニメーションクリップへモーションスタイルを転送する一方で、後者のモーションコンテンツを保存することは、キャラクターアニメーションにおいて長年の課題であった。本稿では,スタイルラベル付き動きの集合から学習する動きスタイル伝達のための新しいデータ駆動フレームワークを提案する。本フレームワークでは,映像から直接動作スタイルを抽出し,3次元再構成をバイパスし,これらを3次元入力動作に適用することができる。
論文参考訳（メタデータ） (2020-05-12T13:21:27Z)
First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文参考訳（メタデータ） (2020-02-29T07:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。