論文の概要: Any-to-Bokeh: One-Step Video Bokeh via Multi-Plane Image Guided Diffusion
- arxiv url: http://arxiv.org/abs/2505.21593v1
- Date: Tue, 27 May 2025 14:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.195722
- Title: Any-to-Bokeh: One-Step Video Bokeh via Multi-Plane Image Guided Diffusion
- Title(参考訳): Any-to-Bokeh:Multi-Plane Image Guided Diffusionによるワンステップビデオボケ
- Authors: Yang Yang, Siming Zheng, Jinwei Chen, Boxi Wu, Xiaofei He, Deng Cai, Bo Li, Peng-Tao Jiang,
- Abstract要約: 本稿では,任意の入力ビデオから時間的コヒーレントで深度を意識したボケ効果に変換するワンステップビデオボケフレームワークを提案する。
MPI層上に一段ビデオ拡散モデルを適用することで,多様なシーンにまたがる現実的で一貫したボケ効果を実現する。
- 参考スコア(独自算出の注目度): 27.488654753644692
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in diffusion based editing models have enabled realistic camera simulation and image-based bokeh, but video bokeh remains largely unexplored. Existing video editing models cannot explicitly control focus planes or adjust bokeh intensity, limiting their applicability for controllable optical effects. Moreover, naively extending image-based bokeh methods to video often results in temporal flickering and unsatisfactory edge blur transitions due to the lack of temporal modeling and generalization capability. To address these challenges, we propose a novel one-step video bokeh framework that converts arbitrary input videos into temporally coherent, depth-aware bokeh effects. Our method leverages a multi-plane image (MPI) representation constructed through a progressively widening depth sampling function, providing explicit geometric guidance for depth-dependent blur synthesis. By conditioning a single-step video diffusion model on MPI layers and utilizing the strong 3D priors from pre-trained models such as Stable Video Diffusion, our approach achieves realistic and consistent bokeh effects across diverse scenes. Additionally, we introduce a progressive training strategy to enhance temporal consistency, depth robustness, and detail preservation. Extensive experiments demonstrate that our method produces high-quality, controllable bokeh effects and achieves state-of-the-art performance on multiple evaluation benchmarks.
- Abstract(参考訳): 拡散ベース編集モデルの最近の進歩により、現実的なカメラシミュレーションや画像ベースのボケが実現されているが、ビデオボケはほとんど探索されていない。
既存のビデオ編集モデルは、フォーカスプレーンを明示的に制御したり、ボケの強度を調整することができず、制御可能な光学効果の適用性を制限することができる。
さらに,画像に基づくボケ法を映像に拡張することで,時間的モデリングや一般化能力の欠如により,時間的フレッカリングや不満足なエッジのぼかし遷移が発生することがしばしばある。
これらの課題に対処するために、任意の入力ビデオから時間的に一貫性のある深度対応のボケ効果に変換するワンステップビデオボケフレームワークを提案する。
提案手法は,多面体画像(MPI)表現を段階的に拡張した深度サンプリング機能によって構築し,深度依存型ぼかし合成のための幾何的ガイダンスを提供する。
MPI層上に一段階の動画拡散モデルを適用し, 安定なビデオ拡散のような事前学習モデルから, 強力な3次元先行モデルを活用することにより, 多様なシーンにまたがる現実的で一貫したボケ効果を実現する。
さらに,時間的整合性,深度堅牢性,細部保存性を高めるための漸進的トレーニング戦略を導入する。
大規模な実験により,本手法は高品質で制御可能なボケ効果が得られ,複数の評価ベンチマークにおける最先端性能が得られた。
関連論文リスト
- Light-X: Generative 4D Video Rendering with Camera and Illumination Control [52.87059646145144]
Light-Xは、視点制御と照明制御の両方でモノクロビデオから制御可能なレンダリングを可能にする、ビデオ生成フレームワークである。
マルチビューとマルチイルミネーションのペアビデオの欠如に対処するために,逆マッピングを備えた劣化ベースのパイプラインであるLight-Synを導入する。
論文 参考訳(メタデータ) (2025-12-04T18:59:57Z) - ReLumix: Extending Image Relighting to Video via Video Diffusion Models [5.890782804843724]
ビデオのポストプロダクション中に照明を制御することは、計算写真において重要な目標である。
本稿では、時間合成からリライトを分離する新しいフレームワークであるReLumixを紹介する。
ReLumixは、合成データに基づいて訓練されているが、実世界のビデオに対する競争上の一般化を示している。
論文 参考訳(メタデータ) (2025-09-28T09:35:33Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - BokehDiff: Neural Lens Blur with One-Step Diffusion [53.11429878683807]
ボケフディフ(BokehDiff)は、物理的に正確で視覚的に魅力的な結果が得られるレンズボウ描画法である。
提案手法では, 画像形成プロセスと整合する自己認識モジュールを物理に着想を得た。
付加雑音を導入することなく1ステップの推論方式に拡散モデルを適応させ,高品質で忠実な結果を得る。
論文 参考訳(メタデータ) (2025-07-24T03:23:19Z) - Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models [26.79219274697864]
現在の拡散モデルは通常、そのような効果を模倣するために急進的な工学に依存している。
シーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
提案手法は、フレキシブルでレンズライクなぼかし制御を実現し、インバージョンによる実際の画像編集などのアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-03-11T13:49:12Z) - DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models [83.28670336340608]
逆レンダリングとフォワードレンダリングの二重問題に対処するニューラルアプローチであるDiffusionRendererを導入する。
本モデルは,リライティング,素材編集,現実的なオブジェクト挿入など,単一のビデオ入力から現実的な応用を可能にする。
論文 参考訳(メタデータ) (2025-01-30T18:59:11Z) - Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Variable Aperture Bokeh Rendering via Customized Focal Plane Guidance [18.390543681127976]
提案手法は,主流のボケモデルよりもはるかに軽量な4.4Mパラメータで,最先端の競合性能を実現している。
提案手法は,主流のボケモデルよりもはるかに軽量な4.4Mパラメータで,最先端の競合性能を実現している。
論文 参考訳(メタデータ) (2024-10-18T12:04:23Z) - DaBiT: Depth and Blur informed Transformer for Video Focal Deblurring [4.332534893042983]
多くの現実のシナリオでは、録画されたビデオは偶然の焦点がぼやけている。
本稿では、ビデオ焦点ずれの未解決作業に最適化されたフレームワークを提案する(再焦点)。
我々は、既存のビデオ復元方法よりも1.9dB以上のPSNR性能で、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-01T12:22:16Z) - GBSD: Generative Bokeh with Stage Diffusion [16.189787907983106]
ボケ効果(ボケエフェクト、bokeh effect)は、写真の中の焦点領域をぼかす芸術技法である。
我々は、ボケスタイルでフォトリアリスティックな画像を合成する最初の生成テキスト・画像モデルであるGBSDを提案する。
論文 参考訳(メタデータ) (2023-06-14T05:34:02Z) - BokehOrNot: Transforming Bokeh Effect with Image Transformer and Lens
Metadata Embedding [2.3784282912975345]
Bokeh効果(ボケエフェクト、英: Bokeh effect)は、広角レンズを備えたハイエンドカメラが生み出す、快適な視覚体験を提供する光学現象である。
本稿では,このモデルにレンズメタデータを埋め込み,アルファマスクを用いた損失計算手法を提案する。
以上の手法に基づいて,ブラープ・トゥ・シャープとシャープ・トゥ・ブルーのボケ効果を両立できるボケオルノットモデルを提案する。
論文 参考訳(メタデータ) (2023-06-06T21:49:56Z) - Joint Video Multi-Frame Interpolation and Deblurring under Unknown
Exposure Time [101.91824315554682]
本研究では,より現実的で挑戦的なタスク – 複数フレームのジョイントビデオと,未知の露光時間下での劣化 – を野心的に目標とする。
我々はまず,入力されたぼやけたフレームから露出認識表現を構築するために,教師付きコントラスト学習の変種を採用する。
次に、プログレッシブ露光適応型畳み込みと動き改善による露出と動きの表現に基づいて、映像再構成ネットワークを構築した。
論文 参考訳(メタデータ) (2023-03-27T09:43:42Z) - MC-Blur: A Comprehensive Benchmark for Image Deblurring [127.6301230023318]
ほとんどの実世界の画像では、ブラーは動きやデフォーカスなど様々な要因によって引き起こされる。
我々は,MC-Blurと呼ばれる大規模マルチライク画像デブロアリングデータセットを新たに構築する。
MC-Blurデータセットに基づいて,異なるシナリオにおけるSOTA法の比較を行う。
論文 参考訳(メタデータ) (2021-12-01T02:10:42Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - AIM 2020 Challenge on Rendering Realistic Bokeh [95.87775182820518]
本稿では,第2回AIM現実ボケ効果レンダリングチャレンジをレビューする。
目標は、大規模なESB! bokehデータセットを使用して、現実的な浅いフォーカステクニックを学ぶことだった。
参加者は、他のカメラやセンサーからの追加データなしで、単一のフレームのみに基づいてボケ効果をレンダリングしなければならなかった。
論文 参考訳(メタデータ) (2020-11-10T09:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。