論文の概要: DreamCinema: Cinematic Transfer with Free Camera and 3D Character
- arxiv url: http://arxiv.org/abs/2408.12601v2
- Date: Wed, 02 Jul 2025 06:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:56.14896
- Title: DreamCinema: Cinematic Transfer with Free Camera and 3D Character
- Title(参考訳): DreamCinema: 無料カメラと3Dキャラクタによるシネマティックトランスファー
- Authors: Weiliang Chen, Fangfu Liu, Diankun Wu, Haowen Sun, Jiwen Lu, Yueqi Duan,
- Abstract要約: ユーザフレンドリーで3D空間をベースとした映像生成のための生成モデルであるDream-Cinemaを提案する。
我々は3D映像を3Dキャラクタ、駆動モーション、カメラの動き、環境の4つの重要な要素に分解する。
これらの要素をシームレスに再結合し、スムーズなフィルム生成を保証するため、構造誘導キャラクタアニメーション、形状認識カメラ運動最適化、環境認識による生成改善を提案する。
- 参考スコア(独自算出の注目度): 51.56284525225804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are living in a flourishing era of digital media, where everyone has the potential to become a personal filmmaker. Current research on video generation suggests a promising avenue for controllable film creation in pixel space using Diffusion models. However, the reliance on overly verbose prompts and insufficient focus on cinematic elements (e.g., camera movement) results in videos that lack cinematic quality. Furthermore, the absence of 3D modeling often leads to failures in video generation, such as inconsistent character models at different frames, ultimately hindering the immersive experience for viewers. In this paper, we propose a new framework for film creation, Dream-Cinema, which is designed for user-friendly, 3D space-based film creation with generative models. Specifically, we decompose 3D film creation into four key elements: 3D character, driven motion, camera movement, and environment. We extract the latter three elements from user-specified film shots and generate the 3D character using a generative model based on a provided image. To seamlessly recombine these elements and ensure smooth film creation, we propose structure-guided character animation, shape-aware camera movement optimization, and environment-aware generative refinement. Extensive experiments demonstrate the effectiveness of our method in generating high-quality films with free camera and 3D characters.
- Abstract(参考訳): われわれはデジタルメディアの繁栄の時代を生きている。
ビデオ生成に関する最近の研究は、拡散モデルを用いた画素空間における制御可能なフィルム生成のための有望な道のりを示唆している。
しかし、過度に冗長なプロンプトへの依存と、撮影要素(例えば、カメラの動き)への集中不足は、撮影品質に欠けるビデオに繋がる。
さらに、3Dモデリングの欠如は、異なるフレームにおける不整合キャラクタモデルのようなビデオ生成の失敗につながることが多く、最終的には視聴者の没入感を損なう。
本稿では,ユーザフレンドリーで3D空間をベースとした映像生成のための生成モデルであるDream-Cinemaを提案する。
具体的には,3次元映像を3次元キャラクタ,駆動動作,カメラの動き,環境の4つの重要な要素に分解する。
ユーザが指定したフィルム画像から後者の3つの要素を抽出し、提供された画像に基づいて生成モデルを用いて3Dキャラクタを生成する。
これらの要素をシームレスに再結合し、スムーズなフィルム生成を保証するため、構造誘導キャラクタアニメーション、形状認識カメラ運動最適化、環境認識による生成改善を提案する。
広汎な実験により,フリーカメラと3Dキャラクタを用いた高品質フィルムの製作における本手法の有効性が示された。
関連論文リスト
- GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography [98.28272367169465]
本稿では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現的なカメラトラジェクトリを生成する。
包括的で多様なデータベースのおかげで、高品質でコンテキスト対応のカメラムーブメント生成のための自動回帰デコーダのみのトランスフォーマーをトレーニングします。
実験により、既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供することが示された。
論文 参考訳(メタデータ) (2025-04-09T17:56:01Z) - CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [76.72787726497343]
CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。
私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
論文 参考訳(メタデータ) (2025-02-12T18:55:36Z) - Deblur-Avatar: Animatable Avatars from Motion-Blurred Monocular Videos [64.10307207290039]
本研究では,モーションブルモノクロビデオ入力から高忠実でアニマタブルな3次元アバターをモデリングするための新しいフレームワークを提案する。
被曝時の人体運動軌跡を明示的にモデル化することにより、鋭く高品質な人体アバターを再構築するために、軌跡と3Dガウスアンを共同で最適化する。
論文 参考訳(メタデータ) (2025-01-23T02:31:57Z) - Can video generation replace cinematographers? Research on the cinematic language of generated video [31.0131670022777]
本稿では,テキスト・ツー・ビデオ(T2V)モデルにおける撮影制御を改善するための3つのアプローチを提案する。
まず,20のサブカテゴリ,ショットフレーミング,ショットアングル,カメラの動きを網羅した,微妙な注釈付き映画言語データセットを紹介する。
第二に、カメラディフ(CameraDiff)は、ロラを精度よく安定した撮影制御に利用し、フレキシブルショット生成を確実にする。
第3に,撮影アライメントの評価とマルチショット合成のガイドを目的としたCameraCLIPを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:02:24Z) - Gaussians-to-Life: Text-Driven Animation of 3D Gaussian Splatting Scenes [49.26872036160368]
ガウススティング表現における高品質な3Dシーンの一部をアニメーションする手法を提案する。
従来の作業とは対照的に、複雑な既存の3Dシーンのリアルなアニメーションを可能にする。
論文 参考訳(メタデータ) (2024-11-28T16:01:58Z) - Motion Diffusion-Guided 3D Global HMR from a Dynamic Camera [3.6948631725065355]
拡散最適化を用いた新しい3次元大域HMR法DiffOptを提案する。
我々の重要な洞察は、動き拡散モデル(MDM)のような人間の動き生成の最近の進歩は、コヒーレントな人間の動きの強い先行を含むことである。
我々はDiffOptをGlobal 3D Human Pose and Shape in the Wildの電磁データベースからビデオシーケンスで検証した。
論文 参考訳(メタデータ) (2024-11-15T21:09:40Z) - ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - Cinematic Behavior Transfer via NeRF-based Differentiable Filming [63.1622492808519]
既存のSLAM手法は動的シーンの制限に直面し、人間のポーズ推定はしばしば2次元投影に焦点を当てる。
まず,逆撮影行動推定手法を提案する。
次に,新しい2Dビデオや3D仮想環境に様々な撮影タイプを転送できる映像転送パイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:56:58Z) - Automatic Camera Trajectory Control with Enhanced Immersion for Virtual Cinematography [23.070207691087827]
実世界のシネマトグラフィーのルールは、監督がカメラをアクターと包括的に同期させることで没入感を生み出すことができることを示している。
この戦略に触発されて,アクターとカメラの3面の同期を可能にするディープカメラ制御フレームワークを提案する。
提案手法は,高品質な没入型撮影映像を定量的かつ質的に生成する。
論文 参考訳(メタデータ) (2023-03-29T22:02:15Z) - AgileGAN3D: Few-Shot 3D Portrait Stylization by Augmented Transfer
Learning [80.67196184480754]
本稿では,3次元芸術的に魅力的な肖像画を詳細な幾何学で作成できる新しいフレームワークであるemphAgileGAN3Dを提案する。
新しいスタイリゼーションは、わずか (約20) の未完成の2D例で得られる。
われわれのパイプラインは、ユーザの写真を多様な3Dアートのポートレートに変える強力な能力を示している。
論文 参考訳(メタデータ) (2023-03-24T23:04:20Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。
提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。
また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。
パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文 参考訳(メタデータ) (2021-08-23T20:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。