論文の概要: Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2505.21593v3
- Date: Fri, 10 Oct 2025 07:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.784315
- Title: Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model
- Title(参考訳): Any-to-Bokeh: ビデオ拡散モデルによる任意対象ビデオ再焦点化
- Authors: Yang Yang, Siming Zheng, Qirui Yang, Jinwei Chen, Boxi Wu, Xiaofei He, Deng Cai, Bo Li, Peng-Tao Jiang,
- Abstract要約: 時間的コヒーレントな深度対応ビデオボケレンダリングを生成するための一段階拡散フレームワークを提案する。
合成および実世界のベンチマークの実験では、時間的コヒーレンス、空間的精度、制御性が向上し、以前のベースラインよりも優れていた。
この研究は、ビデオボケ生成のための初めての専用拡散フレームワークであり、時間的コヒーレントで制御可能なフィールド効果のための新しいベースラインを確立する。
- 参考スコア(独自算出の注目度): 38.625590142415405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have recently emerged as powerful tools for camera simulation, enabling both geometric transformations and realistic optical effects. Among these, image-based bokeh rendering has shown promising results, but diffusion for video bokeh remains unexplored. Existing image-based methods are plagued by temporal flickering and inconsistent blur transitions, while current video editing methods lack explicit control over the focus plane and bokeh intensity. These issues limit their applicability for controllable video bokeh. In this work, we propose a one-step diffusion framework for generating temporally coherent, depth-aware video bokeh rendering. The framework employs a multi-plane image (MPI) representation adapted to the focal plane to condition the video diffusion model, thereby enabling it to exploit strong 3D priors from pretrained backbones. To further enhance temporal stability, depth robustness, and detail preservation, we introduce a progressive training strategy. Experiments on synthetic and real-world benchmarks demonstrate superior temporal coherence, spatial accuracy, and controllability, outperforming prior baselines. This work represents the first dedicated diffusion framework for video bokeh generation, establishing a new baseline for temporally coherent and controllable depth-of-field effects.
- Abstract(参考訳): 拡散モデルは近年、幾何学的変換とリアルな光学効果の両方を可能にする、カメラシミュレーションの強力なツールとして登場した。
これらのうち、画像ベースのボケレンダリングは有望な結果を示しているが、ビデオボケの拡散は未解明のままである。
既存の画像ベースの手法は、時間的ひねりと不整合のぼかし遷移に悩まされ、一方、現在のビデオ編集手法では焦点面とボケの強度に対する明確な制御が欠如している。
これらの問題は、コントロール可能なビデオボケの適用性を制限している。
本研究では,時間的コヒーレントな深度対応ビデオボケレンダリングを生成するための一段階拡散フレームワークを提案する。
このフレームワークは、焦点面に適応した多面像(MPI)表現をビデオ拡散モデルに適応させ、事前訓練されたバックボーンから強力な3Dプリエントを活用できるようにする。
時間的安定性, 深度剛性, 詳細な保存性を高めるため, 進行訓練戦略を導入する。
合成および実世界のベンチマークの実験では、時間的コヒーレンス、空間的精度、制御性が向上し、以前のベースラインよりも優れていた。
この研究は、ビデオボケ生成のための初めての専用拡散フレームワークであり、時間的コヒーレントで制御可能なフィールド効果のための新しいベースラインを確立する。
関連論文リスト
- Light-X: Generative 4D Video Rendering with Camera and Illumination Control [52.87059646145144]
Light-Xは、視点制御と照明制御の両方でモノクロビデオから制御可能なレンダリングを可能にする、ビデオ生成フレームワークである。
マルチビューとマルチイルミネーションのペアビデオの欠如に対処するために,逆マッピングを備えた劣化ベースのパイプラインであるLight-Synを導入する。
論文 参考訳(メタデータ) (2025-12-04T18:59:57Z) - ReLumix: Extending Image Relighting to Video via Video Diffusion Models [5.890782804843724]
ビデオのポストプロダクション中に照明を制御することは、計算写真において重要な目標である。
本稿では、時間合成からリライトを分離する新しいフレームワークであるReLumixを紹介する。
ReLumixは、合成データに基づいて訓練されているが、実世界のビデオに対する競争上の一般化を示している。
論文 参考訳(メタデータ) (2025-09-28T09:35:33Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - BokehDiff: Neural Lens Blur with One-Step Diffusion [53.11429878683807]
ボケフディフ(BokehDiff)は、物理的に正確で視覚的に魅力的な結果が得られるレンズボウ描画法である。
提案手法では, 画像形成プロセスと整合する自己認識モジュールを物理に着想を得た。
付加雑音を導入することなく1ステップの推論方式に拡散モデルを適応させ,高品質で忠実な結果を得る。
論文 参考訳(メタデータ) (2025-07-24T03:23:19Z) - Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models [26.79219274697864]
現在の拡散モデルは通常、そのような効果を模倣するために急進的な工学に依存している。
シーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
提案手法は、フレキシブルでレンズライクなぼかし制御を実現し、インバージョンによる実際の画像編集などのアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-03-11T13:49:12Z) - DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models [83.28670336340608]
逆レンダリングとフォワードレンダリングの二重問題に対処するニューラルアプローチであるDiffusionRendererを導入する。
本モデルは,リライティング,素材編集,現実的なオブジェクト挿入など,単一のビデオ入力から現実的な応用を可能にする。
論文 参考訳(メタデータ) (2025-01-30T18:59:11Z) - Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Variable Aperture Bokeh Rendering via Customized Focal Plane Guidance [18.390543681127976]
提案手法は,主流のボケモデルよりもはるかに軽量な4.4Mパラメータで,最先端の競合性能を実現している。
提案手法は,主流のボケモデルよりもはるかに軽量な4.4Mパラメータで,最先端の競合性能を実現している。
論文 参考訳(メタデータ) (2024-10-18T12:04:23Z) - DaBiT: Depth and Blur informed Transformer for Video Focal Deblurring [4.332534893042983]
多くの現実のシナリオでは、録画されたビデオは偶然の焦点がぼやけている。
本稿では、ビデオ焦点ずれの未解決作業に最適化されたフレームワークを提案する(再焦点)。
我々は、既存のビデオ復元方法よりも1.9dB以上のPSNR性能で、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-01T12:22:16Z) - GBSD: Generative Bokeh with Stage Diffusion [16.189787907983106]
ボケ効果(ボケエフェクト、bokeh effect)は、写真の中の焦点領域をぼかす芸術技法である。
我々は、ボケスタイルでフォトリアリスティックな画像を合成する最初の生成テキスト・画像モデルであるGBSDを提案する。
論文 参考訳(メタデータ) (2023-06-14T05:34:02Z) - BokehOrNot: Transforming Bokeh Effect with Image Transformer and Lens
Metadata Embedding [2.3784282912975345]
Bokeh効果(ボケエフェクト、英: Bokeh effect)は、広角レンズを備えたハイエンドカメラが生み出す、快適な視覚体験を提供する光学現象である。
本稿では,このモデルにレンズメタデータを埋め込み,アルファマスクを用いた損失計算手法を提案する。
以上の手法に基づいて,ブラープ・トゥ・シャープとシャープ・トゥ・ブルーのボケ効果を両立できるボケオルノットモデルを提案する。
論文 参考訳(メタデータ) (2023-06-06T21:49:56Z) - Joint Video Multi-Frame Interpolation and Deblurring under Unknown
Exposure Time [101.91824315554682]
本研究では,より現実的で挑戦的なタスク – 複数フレームのジョイントビデオと,未知の露光時間下での劣化 – を野心的に目標とする。
我々はまず,入力されたぼやけたフレームから露出認識表現を構築するために,教師付きコントラスト学習の変種を採用する。
次に、プログレッシブ露光適応型畳み込みと動き改善による露出と動きの表現に基づいて、映像再構成ネットワークを構築した。
論文 参考訳(メタデータ) (2023-03-27T09:43:42Z) - MC-Blur: A Comprehensive Benchmark for Image Deblurring [127.6301230023318]
ほとんどの実世界の画像では、ブラーは動きやデフォーカスなど様々な要因によって引き起こされる。
我々は,MC-Blurと呼ばれる大規模マルチライク画像デブロアリングデータセットを新たに構築する。
MC-Blurデータセットに基づいて,異なるシナリオにおけるSOTA法の比較を行う。
論文 参考訳(メタデータ) (2021-12-01T02:10:42Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - AIM 2020 Challenge on Rendering Realistic Bokeh [95.87775182820518]
本稿では,第2回AIM現実ボケ効果レンダリングチャレンジをレビューする。
目標は、大規模なESB! bokehデータセットを使用して、現実的な浅いフォーカステクニックを学ぶことだった。
参加者は、他のカメラやセンサーからの追加データなしで、単一のフレームのみに基づいてボケ効果をレンダリングしなければならなかった。
論文 参考訳(メタデータ) (2020-11-10T09:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。