論文の概要: Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.08434v3
- Date: Mon, 24 Mar 2025 09:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:28:58.537476
- Title: Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models
- Title(参考訳): ボケ拡散:テキスト・画像拡散モデルにおけるデフォーカスブラー制御
- Authors: Armando Fortes, Tianyi Wei, Shangchen Zhou, Xingang Pan,
- Abstract要約: 現在の拡散モデルは通常、そのような効果を模倣するために急進的な工学に依存している。
シーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
提案手法は、フレキシブルでレンズライクなぼかし制御を実現し、インバージョンによる実際の画像編集などのアプリケーションをサポートする。
- 参考スコア(独自算出の注目度): 26.79219274697864
- License:
- Abstract: Recent advances in large-scale text-to-image models have revolutionized creative fields by generating visually captivating outputs from textual prompts; however, while traditional photography offers precise control over camera settings to shape visual aesthetics -- such as depth-of-field -- current diffusion models typically rely on prompt engineering to mimic such effects. This approach often results in crude approximations and inadvertently altering the scene content. In this work, we propose Bokeh Diffusion, a scene-consistent bokeh control framework that explicitly conditions a diffusion model on a physical defocus blur parameter. By grounding depth-of-field adjustments, our method preserves the underlying scene structure as the level of blur is varied. To overcome the scarcity of paired real-world images captured under different camera settings, we introduce a hybrid training pipeline that aligns in-the-wild images with synthetic blur augmentations. Extensive experiments demonstrate that our approach not only achieves flexible, lens-like blur control but also supports applications such as real image editing via inversion.
- Abstract(参考訳): 大規模テキスト画像モデルの最近の進歩は、テキストプロンプトから視覚的に捕集された出力を生成することによって創造的な分野に革命をもたらしたが、従来の写真は、カメラ設定を正確に制御して視野の深さのような視覚的美学を形作る一方で、現在の拡散モデルは、そのような効果を模倣するためにプロンプトエンジニアリングに頼るのが一般的である。
このアプローチは、しばしば粗悪な近似と不注意にシーンの内容を変更する。
本研究では,物理デフォーカスブラーパラメータ上での拡散モデルを明示的に条件付けるシーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
本手法は,フィールド深度調整を基礎として,ぼやけの程度が変化するにつれて,基礎となるシーン構造を保存する。
異なるカメラ設定下で撮影された実世界の画像のペア化の不足を克服するため、我々は、合成ぼかし増量により、Wild内の画像を整列するハイブリッドトレーニングパイプラインを導入する。
広汎な実験により、我々のアプローチはフレキシブルなレンズライクなぼかし制御を実現するだけでなく、インバージョンによる実際の画像編集のようなアプリケーションもサポートすることが示された。
関連論文リスト
- ExpRDiff: Short-exposure Guided Diffusion Model for Realistic Local Motion Deblurring [61.82010103478833]
そこで本稿では,コンテキストベースの局所的ぼかし検出モジュールを開発し,さらにコンテキスト情報を加えて,ぼかし領域の識別を改善する。
最新のスマートフォンには、短時間露光画像を提供するカメラが備わっていることを考慮し、ぼやけたガイド付き画像復元法を開発した。
上記のコンポーネントを ExpRDiff という名前のシンプルで効果的なネットワークに定式化します。
論文 参考訳(メタデータ) (2024-12-12T11:42:39Z) - Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Refocusing,Defocus Rendering and Blur Removal [42.427021878005405]
3次元ガウススプラッティング技術は近年,高品質なリアルタイムレンダリングを実現するため,3次元シーン再構成と新しいビュー合成が進歩している。
これらのアプローチは、画像のモデリングにおいて基礎となるピンホールカメラの仮定によって本質的に制限されており、したがって、All-in-Focus (AiF) のシャープイメージ入力にのみ有効である。
これは、撮像素子の深度(DOF)が制限されているため、画像がしばしばデフォーカスのぼやけを示す現実世界のシナリオにおいて、それらの適用性に大きく影響する。
調整可能なDOFエフェクトのレンダリング、デフォーカスのぼかしの除去、および3Dシーンの再フォーカスを可能にするDOF-GSを導入する。
論文 参考訳(メタデータ) (2024-05-27T16:54:49Z) - Motion Guidance: Diffusion-Based Image Editing with Differentiable
Motion Estimators [19.853978560075305]
モーションガイダンス(Motion Guide)は、画像の各ピクセルがどこに移動すべきかを示す、密度の高い複雑なモーションフィールドを指定できる技術である。
本手法は複雑な動きに作用し、実画像や生成された画像の高品質な編集を可能にする。
論文 参考訳(メタデータ) (2024-01-31T18:59:59Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - Curved Diffusion: A Generative Model With Optical Geometry Control [56.24220665691974]
最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。
本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T13:06:48Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Defocus to focus: Photo-realistic bokeh rendering by fusing defocus and
radiance priors [26.38833313692807]
Bokehレンダリングは、プロの写真における美的浅層深度(DoF)を模倣している。
既存の手法は、単純な平坦な背景のぼやけと、焦点内領域のぼやけに悩まされている。
本稿では,現実的なボケレンダリングを学習するためのD2Fフレームワークについて述べる。
論文 参考訳(メタデータ) (2023-06-07T15:15:13Z) - Joint Video Multi-Frame Interpolation and Deblurring under Unknown
Exposure Time [101.91824315554682]
本研究では,より現実的で挑戦的なタスク – 複数フレームのジョイントビデオと,未知の露光時間下での劣化 – を野心的に目標とする。
我々はまず,入力されたぼやけたフレームから露出認識表現を構築するために,教師付きコントラスト学習の変種を採用する。
次に、プログレッシブ露光適応型畳み込みと動き改善による露出と動きの表現に基づいて、映像再構成ネットワークを構築した。
論文 参考訳(メタデータ) (2023-03-27T09:43:42Z) - Bokeh-Loss GAN: Multi-Stage Adversarial Training for Realistic
Edge-Aware Bokeh [3.8811606213997587]
我々は単分子ボケ合成の問題に取り組み、単一のオールインフォーカス画像から被写界画像の浅い深さを描画しようと試みる。
DSLRカメラとは異なり、この効果は移動体開口の物理的制約のため、移動体カメラでは直接キャプチャできない。
本稿では,単一の画像入力から現実的なモノクロボケをレンダリングできるネットワークベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-25T20:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。