論文の概要: Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2505.21593v2
- Date: Sun, 28 Sep 2025 04:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.996445
- Title: Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model
- Title(参考訳): Any-to-Bokeh: ビデオ拡散モデルによる任意対象ビデオ再焦点化
- Authors: Yang Yang, Siming Zheng, Qirui Yang, Jinwei Chen, Boxi Wu, Xiaofei He, Deng Cai, Bo Li, Peng-Tao Jiang,
- Abstract要約: 拡散モデルは、カメラシミュレーションの強力なツールとして登場した。
画像ベースのボケレンダリングは有望な結果を示しているが、ビデオボケの拡散は未解明のままである。
時間的コヒーレントな深度対応ビデオボケレンダリングを生成するための一段階拡散フレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.625590142415405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have recently emerged as powerful tools for camera simulation, enabling both geometric transformations and realistic optical effects. Among these, image-based bokeh rendering has shown promising results, but diffusion for video bokeh remains unexplored. Existing image-based methods are plagued by temporal flickering and inconsistent blur transitions, while current video editing methods lack explicit control over the focus plane and bokeh intensity. These issues limit their applicability for controllable video bokeh. In this work, we propose a one-step diffusion framework for generating temporally coherent, depth-aware video bokeh rendering. The framework employs a multi-plane image (MPI) representation adapted to the focal plane to condition the video diffusion model, thereby enabling it to exploit strong 3D priors from pretrained backbones. To further enhance temporal stability, depth robustness, and detail preservation, we introduce a progressive training strategy. Experiments on synthetic and real-world benchmarks demonstrate superior temporal coherence, spatial accuracy, and controllability, outperforming prior baselines. This work represents the first dedicated diffusion framework for video bokeh generation, establishing a new baseline for temporally coherent and controllable depth-of-field effects. Code will be made publicly available.
- Abstract(参考訳): 拡散モデルは近年、幾何学的変換とリアルな光学効果の両方を可能にする、カメラシミュレーションの強力なツールとして登場した。
これらのうち、画像ベースのボケレンダリングは有望な結果を示しているが、ビデオボケの拡散は未解明のままである。
既存の画像ベースの手法は、時間的ひねりと不整合のぼかし遷移に悩まされ、一方、現在のビデオ編集手法では焦点面とボケの強度に対する明確な制御が欠如している。
これらの問題は、コントロール可能なビデオボケの適用性を制限している。
本研究では,時間的コヒーレントな深度対応ビデオボケレンダリングを生成するための一段階拡散フレームワークを提案する。
このフレームワークは、焦点面に適応した多面像(MPI)表現をビデオ拡散モデルに適応させ、事前訓練されたバックボーンから強力な3Dプリエントを活用できるようにする。
時間的安定性, 深度剛性, 詳細な保存性を高めるため, 進行訓練戦略を導入する。
合成および実世界のベンチマークの実験では、時間的コヒーレンス、空間的精度、制御性が向上し、以前のベースラインよりも優れていた。
この研究は、ビデオボケ生成のための初めての専用拡散フレームワークであり、時間的コヒーレントで制御可能なフィールド効果のための新しいベースラインを確立する。
コードは公開されます。
関連論文リスト
- BokehDiff: Neural Lens Blur with One-Step Diffusion [53.11429878683807]
ボケフディフ(BokehDiff)は、物理的に正確で視覚的に魅力的な結果が得られるレンズボウ描画法である。
提案手法では, 画像形成プロセスと整合する自己認識モジュールを物理に着想を得た。
付加雑音を導入することなく1ステップの推論方式に拡散モデルを適応させ,高品質で忠実な結果を得る。
論文 参考訳(メタデータ) (2025-07-24T03:23:19Z) - Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models [26.79219274697864]
現在の拡散モデルは通常、そのような効果を模倣するために急進的な工学に依存している。
シーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
提案手法は、フレキシブルでレンズライクなぼかし制御を実現し、インバージョンによる実際の画像編集などのアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-03-11T13:49:12Z) - Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Variable Aperture Bokeh Rendering via Customized Focal Plane Guidance [18.390543681127976]
提案手法は,主流のボケモデルよりもはるかに軽量な4.4Mパラメータで,最先端の競合性能を実現している。
提案手法は,主流のボケモデルよりもはるかに軽量な4.4Mパラメータで,最先端の競合性能を実現している。
論文 参考訳(メタデータ) (2024-10-18T12:04:23Z) - GBSD: Generative Bokeh with Stage Diffusion [16.189787907983106]
ボケ効果(ボケエフェクト、bokeh effect)は、写真の中の焦点領域をぼかす芸術技法である。
我々は、ボケスタイルでフォトリアリスティックな画像を合成する最初の生成テキスト・画像モデルであるGBSDを提案する。
論文 参考訳(メタデータ) (2023-06-14T05:34:02Z) - BokehOrNot: Transforming Bokeh Effect with Image Transformer and Lens
Metadata Embedding [2.3784282912975345]
Bokeh効果(ボケエフェクト、英: Bokeh effect)は、広角レンズを備えたハイエンドカメラが生み出す、快適な視覚体験を提供する光学現象である。
本稿では,このモデルにレンズメタデータを埋め込み,アルファマスクを用いた損失計算手法を提案する。
以上の手法に基づいて,ブラープ・トゥ・シャープとシャープ・トゥ・ブルーのボケ効果を両立できるボケオルノットモデルを提案する。
論文 参考訳(メタデータ) (2023-06-06T21:49:56Z) - Joint Video Multi-Frame Interpolation and Deblurring under Unknown
Exposure Time [101.91824315554682]
本研究では,より現実的で挑戦的なタスク – 複数フレームのジョイントビデオと,未知の露光時間下での劣化 – を野心的に目標とする。
我々はまず,入力されたぼやけたフレームから露出認識表現を構築するために,教師付きコントラスト学習の変種を採用する。
次に、プログレッシブ露光適応型畳み込みと動き改善による露出と動きの表現に基づいて、映像再構成ネットワークを構築した。
論文 参考訳(メタデータ) (2023-03-27T09:43:42Z) - MC-Blur: A Comprehensive Benchmark for Image Deblurring [127.6301230023318]
ほとんどの実世界の画像では、ブラーは動きやデフォーカスなど様々な要因によって引き起こされる。
我々は,MC-Blurと呼ばれる大規模マルチライク画像デブロアリングデータセットを新たに構築する。
MC-Blurデータセットに基づいて,異なるシナリオにおけるSOTA法の比較を行う。
論文 参考訳(メタデータ) (2021-12-01T02:10:42Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - AIM 2020 Challenge on Rendering Realistic Bokeh [95.87775182820518]
本稿では,第2回AIM現実ボケ効果レンダリングチャレンジをレビューする。
目標は、大規模なESB! bokehデータセットを使用して、現実的な浅いフォーカステクニックを学ぶことだった。
参加者は、他のカメラやセンサーからの追加データなしで、単一のフレームのみに基づいてボケ効果をレンダリングしなければならなかった。
論文 参考訳(メタデータ) (2020-11-10T09:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。