論文の概要: Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.08434v4
- Date: Mon, 16 Jun 2025 13:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:30.30097
- Title: Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models
- Title(参考訳): ボケ拡散:テキスト・画像拡散モデルにおけるデフォーカスブラー制御
- Authors: Armando Fortes, Tianyi Wei, Shangchen Zhou, Xingang Pan,
- Abstract要約: Bokeh Diffusionはシーン一貫性のあるbokehコントロールフレームワークである。
本稿では,合成ぼかし増量による画像の調整を行うハイブリッド・トレーニング・パイプラインを提案する。
われわれのアプローチは、フレキシブルでレンズライクなぼかし制御を可能にし、インバージョンによる実際の画像編集のような下流アプリケーションをサポートする。
- 参考スコア(独自算出の注目度): 26.79219274697864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large-scale text-to-image models have revolutionized creative fields by generating visually captivating outputs from textual prompts; however, while traditional photography offers precise control over camera settings to shape visual aesthetics - such as depth-of-field via aperture - current diffusion models typically rely on prompt engineering to mimic such effects. This approach often results in crude approximations and inadvertently alters the scene content. In this work, we propose Bokeh Diffusion, a scene-consistent bokeh control framework that explicitly conditions a diffusion model on a physical defocus blur parameter. To overcome the scarcity of paired real-world images captured under different camera settings, we introduce a hybrid training pipeline that aligns in-the-wild images with synthetic blur augmentations, providing diverse scenes and subjects as well as supervision to learn the separation of image content from lens blur. Central to our framework is our grounded self-attention mechanism, trained on image pairs with different bokeh levels of the same scene, which enables blur strength to be adjusted in both directions while preserving the underlying scene. Extensive experiments demonstrate that our approach enables flexible, lens-like blur control, supports downstream applications such as real image editing via inversion, and generalizes effectively across both Stable Diffusion and FLUX architectures.
- Abstract(参考訳): 大規模なテキスト・ツー・イメージモデルの最近の進歩は、テキスト・プロンプトから視覚的に捕集された出力を生成することによって創造的な分野に革命をもたらしたが、従来の写真は、カメラ設定を正確に制御して、視野の奥行きのような視覚的美学を形作っているが、現在の拡散モデルは、そのような効果を模倣するためにプロンプト・エンジニアリングに依存するのが一般的である。
このアプローチはしばしば粗悪な近似をもたらし、必然的にシーンの内容を変更する。
本研究では,物理デフォーカスブラーパラメータ上での拡散モデルを明示的に条件付けるシーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
異なるカメラ設定下で撮影された実世界の画像のペア化の不足を克服するため,我々は,合成ぼやけた画像と合成ぼやけた画像のアライメントを行うハイブリッド・トレーニング・パイプラインを導入し,多様なシーンや主題を提供するとともに,レンズのぼやけから画像内容の分離を学習する監督を行う。
我々の枠組みの中心は、同じシーンのボケレベルが異なる画像対に基づいて訓練された、地上の自己注意機構であり、それによって、背景のシーンを保ちながら、両方の方向のブラー強度を調整できる。
広汎な実験により、我々のアプローチはフレキシブルでレンズライクなぼかし制御を可能にし、インバージョンによる実際の画像編集などの下流アプリケーションをサポートし、安定拡散アーキテクチャとFLUXアーキテクチャの両方で効果的に一般化できることを示した。
関連論文リスト
- Uncertainty-Aware Diffusion Guided Refinement of 3D Scenes [34.19578921335553]
1枚の画像から3Dシーンを再構築することは、問題の本質が過小評価されているため、基本的に不適切な作業である。
本研究では,既存の画像から3D画像へのフィードフォワードネットワークにおいて,これらの制約に対処する。
入力画像の視界を超えた情報不足による性能低下を軽減するため、事前学習された潜伏映像拡散モデルを用いて、強い生成前を活用できる。
論文 参考訳(メタデータ) (2025-03-19T23:14:27Z) - ExpRDiff: Short-exposure Guided Diffusion Model for Realistic Local Motion Deblurring [61.82010103478833]
そこで本稿では,コンテキストベースの局所的ぼかし検出モジュールを開発し,さらにコンテキスト情報を加えて,ぼかし領域の識別を改善する。
最新のスマートフォンには、短時間露光画像を提供するカメラが備わっていることを考慮し、ぼやけたガイド付き画像復元法を開発した。
上記のコンポーネントを ExpRDiff という名前のシンプルで効果的なネットワークに定式化します。
論文 参考訳(メタデータ) (2024-12-12T11:42:39Z) - Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - Motion Guidance: Diffusion-Based Image Editing with Differentiable
Motion Estimators [19.853978560075305]
モーションガイダンス(Motion Guide)は、画像の各ピクセルがどこに移動すべきかを示す、密度の高い複雑なモーションフィールドを指定できる技術である。
本手法は複雑な動きに作用し、実画像や生成された画像の高品質な編集を可能にする。
論文 参考訳(メタデータ) (2024-01-31T18:59:59Z) - ID-Blau: Image Deblurring by Implicit Diffusion-based reBLurring AUgmentation [45.582704677784825]
Inlicit Diffusion-based reBLurring AUgmentation (ID-Blau) を提案する。
多様なぼやけた条件をサンプリングすることで、ID-Blauはトレーニングセットに見えない様々なぼやけた画像を生成することができる。
以上の結果から,ID-Blauはリアルなぼやけた画像を生成することができ,最先端のデブロアリングモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-12-18T07:47:43Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - Curved Diffusion: A Generative Model With Optical Geometry Control [56.24220665691974]
最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。
本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T13:06:48Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Defocus to focus: Photo-realistic bokeh rendering by fusing defocus and
radiance priors [26.38833313692807]
Bokehレンダリングは、プロの写真における美的浅層深度(DoF)を模倣している。
既存の手法は、単純な平坦な背景のぼやけと、焦点内領域のぼやけに悩まされている。
本稿では,現実的なボケレンダリングを学習するためのD2Fフレームワークについて述べる。
論文 参考訳(メタデータ) (2023-06-07T15:15:13Z) - Joint Video Multi-Frame Interpolation and Deblurring under Unknown
Exposure Time [101.91824315554682]
本研究では,より現実的で挑戦的なタスク – 複数フレームのジョイントビデオと,未知の露光時間下での劣化 – を野心的に目標とする。
我々はまず,入力されたぼやけたフレームから露出認識表現を構築するために,教師付きコントラスト学習の変種を採用する。
次に、プログレッシブ露光適応型畳み込みと動き改善による露出と動きの表現に基づいて、映像再構成ネットワークを構築した。
論文 参考訳(メタデータ) (2023-03-27T09:43:42Z) - Bokeh-Loss GAN: Multi-Stage Adversarial Training for Realistic
Edge-Aware Bokeh [3.8811606213997587]
我々は単分子ボケ合成の問題に取り組み、単一のオールインフォーカス画像から被写界画像の浅い深さを描画しようと試みる。
DSLRカメラとは異なり、この効果は移動体開口の物理的制約のため、移動体カメラでは直接キャプチャできない。
本稿では,単一の画像入力から現実的なモノクロボケをレンダリングできるネットワークベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-25T20:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。