Fugu-MT 論文翻訳(概要): ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

論文の概要: ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

arxiv url: http://arxiv.org/abs/2411.05003v1
Date: Thu, 07 Nov 2024 18:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.526443
Title: ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning
Title（参考訳）: ReCapture: Masked Video Fine-Tuning を用いたユーザ生成ビデオのための生成ビデオカメラ制御
Authors: David Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz,
Abstract要約: 本稿では,新規なカメラトラジェクトリを用いた新しいビデオ生成手法であるReCaptureについて述べる。提案手法により,既存のシーンの動きを全く異なる角度から,撮影カメラの動きで再現することができる。
参考スコア（独自算出の注目度）: 32.08206580711449
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, breakthroughs in video modeling have allowed for controllable camera trajectories in generated videos. However, these methods cannot be directly applied to user-provided videos that are not generated by a video model. In this paper, we present ReCapture, a method for generating new videos with novel camera trajectories from a single user-provided video. Our method allows us to re-generate the reference video, with all its existing scene motion, from vastly different angles and with cinematic camera motion. Notably, using our method we can also plausibly hallucinate parts of the scene that were not observable in the reference video. Our method works by (1) generating a noisy anchor video with a new camera trajectory using multiview diffusion models or depth-based point cloud rendering and then (2) regenerating the anchor video into a clean and temporally consistent reangled video using our proposed masked video fine-tuning technique.
Abstract（参考訳）: 近年、ビデオモデリングにおけるブレークスルーにより、生成されたビデオにおける制御可能なカメラトラジェクトリが可能になった。しかし、これらの手法は、ビデオモデルによって生成されていないユーザが提供するビデオに直接適用することはできない。本稿では,ユーザが提供する単一のビデオから新しいカメラトラジェクトリを用いた新しいビデオを生成する手法であるReCaptureを提案する。提案手法により,既存のシーンの動きを全く異なる角度から,撮影カメラの動きで再現することができる。また,本手法を用いることで,参照ビデオでは観測不可能なシーンの一部を幻覚させることも可能となった。提案手法は,(1)多視点拡散モデルや深度ベースのポイントクラウドレンダリングを用いて,新しいカメラ軌道でノイズの多いアンカー映像を生成し,(2)マスク付きビデオ微細調整技術を用いて,クリーンで時間的に一貫したビデオにアンカー映像を再生することで機能する。

関連論文リスト

LMP: Leveraging Motion Prior in Zero-Shot Video Generation with Diffusion Transformer [10.44905923812975]
ゼロショットビデオ生成のためのLMPフレームワークを提案する。本フレームワークでは,事前学習した拡散トランスフォーマーの強力な生成機能を活用し,生成した動画の動画をユーザが提供するモーションビデオを参照できるようにする。提案手法は, 生成品質, 即時ビデオの整合性, 制御能力における最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-20T10:18:29Z)
Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文参考訳（メタデータ） (2025-04-30T22:34:52Z)
CamMimic: Zero-Shot Image To Camera Motion Personalized Video Generation Using Diffusion Models [47.65379612084075]
CamMimicは、所定のリファレンスビデオで観察されたカメラモーションを、ユーザの選択したシーンにシームレスに転送するように設計されている。非関連シーン間のカメラの動き伝達を評価するための確立された指標が存在しないため,CameraScoreを提案する。
論文参考訳（メタデータ） (2025-04-13T08:04:11Z)
Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model [14.775908473190684]
Scene Splatterは、単一の画像から一般的なシーンを生成するビデオ拡散のための運動量に基づくパラダイムである。我々は,映像の詳細を向上し,シーンの一貫性を維持するために,オリジナルの特徴からノイズの多いサンプルをモメンタとして構築する。我々は,映像拡散モデルを用いて,高忠実度と一貫した新奇なビューを生成する。
論文参考訳（メタデータ） (2025-04-03T17:00:44Z)
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文参考訳（メタデータ） (2025-03-14T17:59:31Z)
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation [51.328567400947435]
単一の入力ビデオから同期化されたマルチビュービデオを生成するための統合フレームワークであるReangle-A-Videoを紹介する。提案手法は,多視点映像生成タスクをビデオ間翻訳として再設計し,公開画像とビデオ拡散先行情報を活用する。
論文参考訳（メタデータ） (2025-03-12T08:26:15Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文参考訳（メタデータ） (2024-06-29T08:33:55Z)
Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文参考訳（メタデータ） (2024-06-14T15:33:00Z)
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。 CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文参考訳（メタデータ） (2024-05-27T17:58:01Z)
MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文参考訳（メタデータ） (2024-04-24T10:28:54Z)
Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文参考訳（メタデータ） (2023-12-05T18:05:59Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。