論文の概要: Any-to-Bokeh: One-Step Video Bokeh via Multi-Plane Image Guided Diffusion
- arxiv url: http://arxiv.org/abs/2505.21593v1
- Date: Tue, 27 May 2025 14:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.195722
- Title: Any-to-Bokeh: One-Step Video Bokeh via Multi-Plane Image Guided Diffusion
- Title(参考訳): Any-to-Bokeh:Multi-Plane Image Guided Diffusionによるワンステップビデオボケ
- Authors: Yang Yang, Siming Zheng, Jinwei Chen, Boxi Wu, Xiaofei He, Deng Cai, Bo Li, Peng-Tao Jiang,
- Abstract要約: 本稿では,任意の入力ビデオから時間的コヒーレントで深度を意識したボケ効果に変換するワンステップビデオボケフレームワークを提案する。
MPI層上に一段ビデオ拡散モデルを適用することで,多様なシーンにまたがる現実的で一貫したボケ効果を実現する。
- 参考スコア(独自算出の注目度): 27.488654753644692
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in diffusion based editing models have enabled realistic camera simulation and image-based bokeh, but video bokeh remains largely unexplored. Existing video editing models cannot explicitly control focus planes or adjust bokeh intensity, limiting their applicability for controllable optical effects. Moreover, naively extending image-based bokeh methods to video often results in temporal flickering and unsatisfactory edge blur transitions due to the lack of temporal modeling and generalization capability. To address these challenges, we propose a novel one-step video bokeh framework that converts arbitrary input videos into temporally coherent, depth-aware bokeh effects. Our method leverages a multi-plane image (MPI) representation constructed through a progressively widening depth sampling function, providing explicit geometric guidance for depth-dependent blur synthesis. By conditioning a single-step video diffusion model on MPI layers and utilizing the strong 3D priors from pre-trained models such as Stable Video Diffusion, our approach achieves realistic and consistent bokeh effects across diverse scenes. Additionally, we introduce a progressive training strategy to enhance temporal consistency, depth robustness, and detail preservation. Extensive experiments demonstrate that our method produces high-quality, controllable bokeh effects and achieves state-of-the-art performance on multiple evaluation benchmarks.
- Abstract(参考訳): 拡散ベース編集モデルの最近の進歩により、現実的なカメラシミュレーションや画像ベースのボケが実現されているが、ビデオボケはほとんど探索されていない。
既存のビデオ編集モデルは、フォーカスプレーンを明示的に制御したり、ボケの強度を調整することができず、制御可能な光学効果の適用性を制限することができる。
さらに,画像に基づくボケ法を映像に拡張することで,時間的モデリングや一般化能力の欠如により,時間的フレッカリングや不満足なエッジのぼかし遷移が発生することがしばしばある。
これらの課題に対処するために、任意の入力ビデオから時間的に一貫性のある深度対応のボケ効果に変換するワンステップビデオボケフレームワークを提案する。
提案手法は,多面体画像(MPI)表現を段階的に拡張した深度サンプリング機能によって構築し,深度依存型ぼかし合成のための幾何的ガイダンスを提供する。
MPI層上に一段階の動画拡散モデルを適用し, 安定なビデオ拡散のような事前学習モデルから, 強力な3次元先行モデルを活用することにより, 多様なシーンにまたがる現実的で一貫したボケ効果を実現する。
さらに,時間的整合性,深度堅牢性,細部保存性を高めるための漸進的トレーニング戦略を導入する。
大規模な実験により,本手法は高品質で制御可能なボケ効果が得られ,複数の評価ベンチマークにおける最先端性能が得られた。
関連論文リスト
- Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models [26.79219274697864]
現在の拡散モデルは通常、そのような効果を模倣するために急進的な工学に依存している。
シーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
提案手法は、フレキシブルでレンズライクなぼかし制御を実現し、インバージョンによる実際の画像編集などのアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-03-11T13:49:12Z) - Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - Variable Aperture Bokeh Rendering via Customized Focal Plane Guidance [18.390543681127976]
提案手法は,主流のボケモデルよりもはるかに軽量な4.4Mパラメータで,最先端の競合性能を実現している。
提案手法は,主流のボケモデルよりもはるかに軽量な4.4Mパラメータで,最先端の競合性能を実現している。
論文 参考訳(メタデータ) (2024-10-18T12:04:23Z) - BokehOrNot: Transforming Bokeh Effect with Image Transformer and Lens
Metadata Embedding [2.3784282912975345]
Bokeh効果(ボケエフェクト、英: Bokeh effect)は、広角レンズを備えたハイエンドカメラが生み出す、快適な視覚体験を提供する光学現象である。
本稿では,このモデルにレンズメタデータを埋め込み,アルファマスクを用いた損失計算手法を提案する。
以上の手法に基づいて,ブラープ・トゥ・シャープとシャープ・トゥ・ブルーのボケ効果を両立できるボケオルノットモデルを提案する。
論文 参考訳(メタデータ) (2023-06-06T21:49:56Z) - Joint Video Multi-Frame Interpolation and Deblurring under Unknown
Exposure Time [101.91824315554682]
本研究では,より現実的で挑戦的なタスク – 複数フレームのジョイントビデオと,未知の露光時間下での劣化 – を野心的に目標とする。
我々はまず,入力されたぼやけたフレームから露出認識表現を構築するために,教師付きコントラスト学習の変種を採用する。
次に、プログレッシブ露光適応型畳み込みと動き改善による露出と動きの表現に基づいて、映像再構成ネットワークを構築した。
論文 参考訳(メタデータ) (2023-03-27T09:43:42Z) - MC-Blur: A Comprehensive Benchmark for Image Deblurring [127.6301230023318]
ほとんどの実世界の画像では、ブラーは動きやデフォーカスなど様々な要因によって引き起こされる。
我々は,MC-Blurと呼ばれる大規模マルチライク画像デブロアリングデータセットを新たに構築する。
MC-Blurデータセットに基づいて,異なるシナリオにおけるSOTA法の比較を行う。
論文 参考訳(メタデータ) (2021-12-01T02:10:42Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - AIM 2020 Challenge on Rendering Realistic Bokeh [95.87775182820518]
本稿では,第2回AIM現実ボケ効果レンダリングチャレンジをレビューする。
目標は、大規模なESB! bokehデータセットを使用して、現実的な浅いフォーカステクニックを学ぶことだった。
参加者は、他のカメラやセンサーからの追加データなしで、単一のフレームのみに基づいてボケ効果をレンダリングしなければならなかった。
論文 参考訳(メタデータ) (2020-11-10T09:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。