論文の概要: A Light and Tuning-free Method for Simulating Camera Motion in Video Generation
- arxiv url: http://arxiv.org/abs/2503.06508v1
- Date: Sun, 09 Mar 2025 08:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:48.964442
- Title: A Light and Tuning-free Method for Simulating Camera Motion in Video Generation
- Title(参考訳): 映像生成におけるカメラ動作シミュレーションのための光・チューニング不要手法
- Authors: Quanjian Song, Zhihang Lin, Zhanpeng Zeng, Ziyue Zhang, Liujuan Cao, Rongrong Ji,
- Abstract要約: LightMotionは、ビデオ生成におけるカメラモーションをシミュレートするための軽量かつチューニング不要な方法である。
潜在空間で操作すると、追加の微調整、塗装、深さ推定がなくなる。
- 参考スコア(独自算出の注目度): 56.64004196498026
- License:
- Abstract: Existing camera motion-controlled video generation methods face computational bottlenecks in fine-tuning and inference. This paper proposes LightMotion, a light and tuning-free method for simulating camera motion in video generation. Operating in the latent space, it eliminates additional fine-tuning, inpainting, and depth estimation, making it more streamlined than existing methods. The endeavors of this paper comprise: (i) The latent space permutation operation effectively simulates various camera motions like panning, zooming, and rotation. (ii) The latent space resampling strategy combines background-aware sampling and cross-frame alignment to accurately fill new perspectives while maintaining coherence across frames. (iii) Our in-depth analysis shows that the permutation and resampling cause an SNR shift in latent space, leading to poor-quality generation. To address this, we propose latent space correction, which reintroduces noise during denoising to mitigate SNR shift and enhance video generation quality. Exhaustive experiments show that our LightMotion outperforms existing methods, both quantitatively and qualitatively.
- Abstract(参考訳): 既存のカメラモーション制御ビデオ生成手法は、微調整と推論において計算ボトルネックに直面している。
本稿では,映像生成におけるカメラの動きをシミュレートするためのライト・アンド・チューニングフリーなLightMotionを提案する。
潜伏空間で運用することで、微調整、塗装、深さ推定の追加を排除し、既存の方法よりも合理化されている。
本論文の取り組みは以下のとおりである。
(i)潜時空間置換操作は、パニング、ズーム、回転などの様々なカメラの動きを効果的にシミュレートする。
二 フレーム間のコヒーレンスを維持しつつ、新しい視点を正確に満たすため、背景認識サンプリングとクロスフレームアライメントを組み合わせた潜時空間再サンプリング戦略。
3) 詳細な分析により, 置換と再サンプリングが潜伏空間のSNRシフトを引き起こし, 質の悪い生成を引き起こすことが明らかとなった。
そこで我々は, SNRシフトを緩和し, 映像生成品質を向上させるために, ノイズを再導入する潜時空間補正を提案する。
実験の結果、LightMotionは既存の方法よりも定量的にも質的にも優れています。
関連論文リスト
- Image Motion Blur Removal in the Temporal Dimension with Video Diffusion Models [3.052019331122618]
本研究では,動きのぼかしを時間的平均化現象として扱う新しい単一像デブロアリング手法を提案する。
私たちの中心となるイノベーションは、トレーニング済みの動画拡散トランスフォーマーモデルを利用して、多様な動きのダイナミクスを捉えることです。
合成および実世界のデータセットにおける実験結果から,本手法は複雑な動きのぼかしシナリオを損なう場合,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-22T03:01:54Z) - CPA: Camera-pose-awareness Diffusion Transformer for Video Generation [15.512186399114999]
CPAはテキスト・ビデオ生成のアプローチであり、テキスト・ビジュアル・空間的条件を統合している。
トラジェクトリの整合性とオブジェクトの整合性において最適な性能を保ちながら、長いビデオ生成のためのLDM法よりも優れる。
論文 参考訳(メタデータ) (2024-12-02T12:10:00Z) - Unrolled Decomposed Unpaired Learning for Controllable Low-Light Video Enhancement [48.76608212565327]
本稿では,2対の地上真実を使わずに,低照度映像のエンハンスメントを学習する上での取り組みについて述べる。
低照度画像の強調に比べて、空間領域におけるノイズ、露出、コントラストの相互干渉効果により、時間的コヒーレンスの必要性が伴うため、低照度映像の強調は困難である。
本稿では,信号の空間的・時間的関連要因に分解するために,最適化関数を深層ネットワークにアンロールすることで低照度映像の高精細化を実現するUnrolled Decompposed Unpaired Network (UDU-Net)を提案する。
論文 参考訳(メタデータ) (2024-08-22T11:45:11Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Gaussian Splatting on the Move: Blur and Rolling Shutter Compensation for Natural Camera Motion [25.54868552979793]
本稿では,カメラの動きに適応し,手持ち映像データを用いた高品質なシーン再構成を実現する手法を提案する。
合成データと実データの両方を用いて、既存の手法よりもカメラの動きを軽減できる性能を示した。
論文 参考訳(メタデータ) (2024-03-20T06:19:41Z) - SMURF: Continuous Dynamics for Motion-Deblurring Radiance Fields [14.681688453270523]
本稿では,ニューラル常微分方程式(Neural-ODE)を用いて連続カメラの動きをモデル化する新しい手法である,逐次的動き理解放射場(SMURF)を提案する。
我々のモデルは、ベンチマークデータセットに対して厳密に評価され、定量的かつ定性的に最先端のパフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-03-12T11:32:57Z) - EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering
within Transformer [30.470336098766765]
ビデオモーション・マグニフィケーション(VMM)は、人間の視覚知覚能力の解像度限界を破ることを目的としている。
本稿では,静的場適応型復調を実現するための新しい動的フィルタリング手法を提案する。
我々は、ユーラーモーマーがユーレリア視点からより堅牢なビデオモーション倍率を達成するための広範な実験を実証する。
論文 参考訳(メタデータ) (2023-12-07T09:10:16Z) - Towards Interpretable Video Super-Resolution via Alternating
Optimization [115.85296325037565]
低フレームのぼかしビデオから高フレームの高解像度のシャープビデオを生成することを目的とした実時間ビデオ超解法(STVSR)問題について検討する。
本稿では,モデルベースと学習ベースの両方の手法を用いて,解釈可能なSTVSRフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T21:34:05Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z) - Spatiotemporal Bundle Adjustment for Dynamic 3D Human Reconstruction in
the Wild [49.672487902268706]
本稿では,カメラの時間的アライメントと3次元点三角測量を共同で推定する枠組みを提案する。
複数の無同期・無同期ビデオカメラで捉えたイベントにおいて、人間の身体の3次元運動軌跡を再構成する。
論文 参考訳(メタデータ) (2020-07-24T23:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。