論文の概要: ActAnywhere: Subject-Aware Video Background Generation
- arxiv url: http://arxiv.org/abs/2401.10822v1
- Date: Fri, 19 Jan 2024 17:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:09:30.174402
- Title: ActAnywhere: Subject-Aware Video Background Generation
- Title(参考訳): ActAnywhere:主観的ビデオ背景生成
- Authors: Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang
Zhou, Leonidas J. Guibas, Jimei Yang
- Abstract要約: 映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
- 参考スコア(独自算出の注目度): 62.57759679425924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating video background that tailors to foreground subject motion is an
important problem for the movie industry and visual effects community. This
task involves synthesizing background that aligns with the motion and
appearance of the foreground subject, while also complies with the artist's
creative intention. We introduce ActAnywhere, a generative model that automates
this process which traditionally requires tedious manual efforts. Our model
leverages the power of large-scale video diffusion models, and is specifically
tailored for this task. ActAnywhere takes a sequence of foreground subject
segmentation as input and an image that describes the desired scene as
condition, to produce a coherent video with realistic foreground-background
interactions while adhering to the condition frame. We train our model on a
large-scale dataset of human-scene interaction videos. Extensive evaluations
demonstrate the superior performance of our model, significantly outperforming
baselines. Moreover, we show that ActAnywhere generalizes to diverse
out-of-distribution samples, including non-human subjects. Please visit our
project webpage at https://actanywhere.github.io.
- Abstract(参考訳): 映画産業や視覚効果コミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
このタスクは、フォアグラウンドの主題の動きや外観に合わせて背景を合成すると同時に、アーティストの創造的な意図にも合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
本モデルは,大規模ビデオ拡散モデルのパワーを活用し,この課題に特化している。
actanywhereは、前景テーマセグメンテーションのシーケンスを入力とし、所望のシーンを条件として表現した画像を作成し、条件フレームに固執しながら、現実的な前景バックグランドインタラクションを備えたコヒーレントビデオを生成する。
我々は、人間とシーンのインタラクションビデオの大規模データセットでモデルをトレーニングする。
大規模な評価は,本モデルの優れた性能を示し,ベースラインを著しく上回る結果となった。
さらに,ActAnywhereは,非人体を含む多様な分布外サンプルに一般化されていることを示す。
プロジェクトのwebページはhttps://actanywhere.github.io.com/でどうぞ。
関連論文リスト
- DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Dense Video Object Captioning from Disjoint Supervision [74.29564964727813]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
我々のモデルはエンドツーエンドで訓練されており、空間的位置決め、追跡、キャプションのための異なるモジュールで構成されている。
我々のモデルは、VidSTGとVLNに基づく空間接地のための、最先端の専用モデルよりも優れています。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。