論文の概要: AKiRa: Augmentation Kit on Rays for optical video generation
- arxiv url: http://arxiv.org/abs/2412.14158v1
- Date: Wed, 18 Dec 2024 18:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:38.632880
- Title: AKiRa: Augmentation Kit on Rays for optical video generation
- Title(参考訳): AKiRa:光ビデオ生成のためのAugmentation Kit on Rays
- Authors: Xi Wang, Robin Courant, Marc Christie, Vicky Kalogeiton,
- Abstract要約: AKiRaは、カメラアダプタを既存のビデオ生成バックボーンの上に複雑なカメラモデルで構築し、訓練する、新しい拡張フレームワークである。
カメラの動きの微調整と複雑な光学パラメータにより、ズーム、魚眼効果、ボケなどの映画効果を達成できる。
この研究は、制御され、光学的に強化されたビデオ生成において新しいランドマークを設定し、将来の光ビデオ生成方法への道を開く。
- 参考スコア(独自算出の注目度): 9.255424148510572
- License:
- Abstract: Recent advances in text-conditioned video diffusion have greatly improved video quality. However, these methods offer limited or sometimes no control to users on camera aspects, including dynamic camera motion, zoom, distorted lens and focus shifts. These motion and optical aspects are crucial for adding controllability and cinematic elements to generation frameworks, ultimately resulting in visual content that draws focus, enhances mood, and guides emotions according to filmmakers' controls. In this paper, we aim to close the gap between controllable video generation and camera optics. To achieve this, we propose AKiRa (Augmentation Kit on Rays), a novel augmentation framework that builds and trains a camera adapter with a complex camera model over an existing video generation backbone. It enables fine-tuned control over camera motion as well as complex optical parameters (focal length, distortion, aperture) to achieve cinematic effects such as zoom, fisheye effect, and bokeh. Extensive experiments demonstrate AKiRa's effectiveness in combining and composing camera optics while outperforming all state-of-the-art methods. This work sets a new landmark in controlled and optically enhanced video generation, paving the way for future optical video generation methods.
- Abstract(参考訳): テキスト条件付きビデオ拡散の最近の進歩は、ビデオの品質を大幅に改善した。
しかし、これらの手法は、ダイナミックカメラモーション、ズーム、歪んだレンズ、フォーカスシフトなど、カメラ面のユーザーに対して限定的または時折コントロールを提供しない。
これらの動きと光学的側面は、生成フレームワークに制御性と映画的要素を加えるために不可欠であり、最終的に視覚的コンテンツが焦点を引き、気分を高め、映画製作者の制御に従って感情を導く。
本稿では,制御可能な映像生成とカメラ光学とのギャップを埋めることを目的としている。
そこで我々は,AKiRa (Augmentation Kit on Rays) を提案する。AKiRa(Augmentation Kit on Rays)は,カメラアダプターを既存のビデオ生成バックボーン上に複雑なカメラモデルで構築し,訓練する新しい拡張フレームワークである。
カメラの動きを微調整し、複雑な光学パラメータ(焦点距離、歪み、開口)でズーム、魚眼効果、ボケなどの撮影効果を達成できる。
大規模な実験は、AKiRaがカメラ光学を組み合わせ、構成する上で有効であり、最先端の手法よりも優れていることを示した。
この研究は、制御され、光学的に強化されたビデオ生成において新しいランドマークを設定し、将来の光ビデオ生成方法への道を開く。
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Video Reconstruction from a Single Motion Blurred Image using Learned
Dynamic Phase Coding [34.76550131783525]
単一動きブル画像を用いた映像再構成のためのハイブリッド光デジタル手法を提案する。
我々は、画像取得中にレンズ開口部の動的位相符号化を学習し、運動軌跡を符号化する。
提案した計算カメラは、単一の符号化されたモーションブルー画像から、様々なフレームレートでシーンのシャープなフレームバーストを生成する。
論文 参考訳(メタデータ) (2021-12-28T02:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。