論文の概要: Fine-grained Defocus Blur Control for Generative Image Models
- arxiv url: http://arxiv.org/abs/2510.06215v1
- Date: Tue, 07 Oct 2025 17:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.417009
- Title: Fine-grained Defocus Blur Control for Generative Image Models
- Title(参考訳): 生成画像モデルのためのきめ細かいデフォーカスブラー制御
- Authors: Ayush Shrivastava, Connelly Barnes, Xuaner Zhang, Lingzhi Zhang, Andrew Owens, Sohrab Amirghodsi, Eli Shechtman,
- Abstract要約: 現在のテキストと画像の拡散モデルは、多様な高品質な画像を生成するのに優れている。
本稿では,カメラメタデータを活用した新しいテキスト・画像拡散フレームワークを提案する。
我々のモデルは、描写されたシーンを変更することなく、より優れたきめ細かい制御を可能にする。
- 参考スコア(独自算出の注目度): 66.30016220484394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-to-image diffusion models excel at generating diverse, high-quality images, yet they struggle to incorporate fine-grained camera metadata such as precise aperture settings. In this work, we introduce a novel text-to-image diffusion framework that leverages camera metadata, or EXIF data, which is often embedded in image files, with an emphasis on generating controllable lens blur. Our method mimics the physical image formation process by first generating an all-in-focus image, estimating its monocular depth, predicting a plausible focus distance with a novel focus distance transformer, and then forming a defocused image with an existing differentiable lens blur model. Gradients flow backwards through this whole process, allowing us to learn without explicit supervision to generate defocus effects based on content elements and the provided EXIF data. At inference time, this enables precise interactive user control over defocus effects while preserving scene contents, which is not achievable with existing diffusion models. Experimental results demonstrate that our model enables superior fine-grained control without altering the depicted scene.
- Abstract(参考訳): 現在のテキストと画像の拡散モデルは、多彩で高品質な画像を生成するのに優れていますが、精密な開口設定のようなきめ細かいカメラメタデータを組み込むのに苦労しています。
本研究では,画像ファイルに埋め込まれる画像メタデータやEXIFデータを活用する新しいテキスト・画像拡散フレームワークを提案する。
提案手法は、まず全焦点画像を生成し、その単眼深度を推定し、新しい焦点距離変換器で可視焦点距離を予測し、既存の微分可能レンズボケモデルで非焦点画像を作成することにより、物理画像形成過程を模倣する。
グラディエントはこのプロセス全体を通して逆向きに流れ、明示的な監督なしに学習し、コンテンツ要素と提供されたEXIFデータに基づいてデフォーカス効果を生成することができる。
これにより、既存の拡散モデルでは達成できないシーン内容を保持しながら、デフォーカス効果を正確にインタラクティブに制御できる。
実験結果から,図面を変更せずに,よりきめ細かな制御が可能であることが示唆された。
関連論文リスト
- DiffCamera: Arbitrary Refocusing on Images [55.948229011478304]
DiffCameraは、任意の新しいフォーカスポイントとぼやけレベルに条件付けされた生成画像のフレキシブルな再フォーカスを可能にするモデルである。
DiffCameraは、さまざまな場面で安定したリフォーカスをサポートし、写真や生成AIアプリケーションのためのDoF調整を前例のないコントロールを提供する。
論文 参考訳(メタデータ) (2025-09-30T17:48:23Z) - BokehDiff: Neural Lens Blur with One-Step Diffusion [53.11429878683807]
ボケフディフ(BokehDiff)は、物理的に正確で視覚的に魅力的な結果が得られるレンズボウ描画法である。
提案手法では, 画像形成プロセスと整合する自己認識モジュールを物理に着想を得た。
付加雑音を導入することなく1ステップの推論方式に拡散モデルを適応させ,高品質で忠実な結果を得る。
論文 参考訳(メタデータ) (2025-07-24T03:23:19Z) - Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models [26.79219274697864]
Bokeh Diffusionはシーン一貫性のあるbokehコントロールフレームワークである。
本稿では,合成ぼかし増量による画像の調整を行うハイブリッド・トレーニング・パイプラインを提案する。
われわれのアプローチは、フレキシブルでレンズライクなぼかし制御を可能にし、インバージョンによる実際の画像編集のような下流アプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-03-11T13:49:12Z) - Curved Diffusion: A Generative Model With Optical Geometry Control [56.24220665691974]
最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。
本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T13:06:48Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。