論文の概要: Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2412.02168v3
- Date: Tue, 25 Mar 2025 03:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:14:13.743517
- Title: Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis
- Title(参考訳): 生成写真:リアルテキスト・画像合成のためのシーン一貫性カメラ制御
- Authors: Yu Yuan, Xijun Wang, Yichen Sheng, Prateek Chennuri, Xingguang Zhang, Stanley Chan,
- Abstract要約: 本稿では、コンテンツ生成中にカメラ固有の設定を制御できるフレームワーク、Generative Photographyを紹介する。
実験結果から,本手法は最先端モデルよりもシーン一貫性のあるフォトリアリスティック画像を生成することがわかった。
- 参考スコア(独自算出の注目度): 4.488462428880112
- License:
- Abstract: Image generation today can produce somewhat realistic images from text prompts. However, if one asks the generator to synthesize a specific camera setting such as creating different fields of view using a 24mm lens versus a 70mm lens, the generator will not be able to interpret and generate scene-consistent images. This limitation not only hinders the adoption of generative tools in professional photography but also highlights the broader challenge of aligning data-driven models with real-world physical settings. In this paper, we introduce Generative Photography, a framework that allows controlling camera intrinsic settings during content generation. The core innovation of this work are the concepts of Dimensionality Lifting and Differential Camera Intrinsics Learning, enabling smooth and consistent transitions across different camera settings. Experimental results show that our method produces significantly more scene-consistent photorealistic images than state-of-the-art models such as Stable Diffusion 3 and FLUX. Our code and additional results are available at https://generative-photography.github.io/project.
- Abstract(参考訳): 今日の画像生成は、テキストプロンプトからややリアルなイメージを生成することができる。
しかし、24mmのレンズと70mmのレンズで異なる視野を作成できるような特定のカメラ設定をジェネレータに要求すると、生成装置はシーンに一貫性のある画像を解釈して生成することができない。
この制限は、プロの写真撮影における生成ツールの採用を妨げるだけでなく、データ駆動モデルと現実世界の物理的な設定を整合させるという、より広範な課題も浮き彫りにしている。
本稿では、コンテンツ生成中にカメラ固有の設定を制御できるフレームワーク、Generative Photographyを紹介する。
この研究の中核となる革新は、ディメンダリティ・リフティングとディファレンシャル・カメラ固有の学習の概念であり、異なるカメラ設定のスムーズで一貫した遷移を可能にする。
実験結果から,本手法は安定拡散3やFLUXのような最先端のモデルよりも,シーン一貫性のあるフォトリアリスティック画像を生成することがわかった。
私たちのコードと追加の結果はhttps://generative-photography.github.io/project.comで公開されています。
関連論文リスト
- PreciseCam: Precise Camera Control for Text-to-Image Generation [13.586200016767794]
芸術的な媒体としてのイメージは、アイデアや感情を伝えるために、特定のカメラの角度とレンズの歪みに依存することが多い。
本稿では,写真画像と芸術画像の両方を生成する際に,カメラの正確な制御を可能にする,効率的で汎用的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-22T14:37:01Z) - Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Long-Term Photometric Consistent Novel View Synthesis with Diffusion
Models [24.301334966272297]
本稿では,特定のカメラ軌跡に整合したフォトリアリスティックな画像列を生成できる新しい生成モデルを提案する。
生成したビューのシーケンス上の一貫性を測定するために、新しい計量、しきい値付き対称極性距離(TSED)を導入する。
論文 参考訳(メタデータ) (2023-04-21T02:01:02Z) - Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。
提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文 参考訳(メタデータ) (2022-09-12T17:40:08Z) - Factorized and Controllable Neural Re-Rendering of Outdoor Scene for
Photo Extrapolation [50.00344639039158]
本稿では, 乱雑な屋外インターネット写真コレクションから新たなビューを生成するために, ニューラルリレンダリングモデルを提案する。
また,テクスチャの詳細を補完する新しいリアリズム拡張法を提案し,そのテクスチャの詳細を狭められた画像から外挿したニューラルレンダリング画像に自動的に伝達する。
論文 参考訳(メタデータ) (2022-07-14T13:28:08Z) - FreeStyleGAN: Free-view Editable Portrait Rendering with the Camera
Manifold [5.462226912969161]
現在のGAN(Generative Adversarial Networks)は、ポートレート画像のフォトリアリスティックレンダリングを生成する。
当社のアプローチは,トレーニング済みのStyleGANを標準の3Dレンダリングパイプラインに統合する上で,どのような効果があるかを示す。
本手法は,インタラクティブなレートでリアルな顔の真の自由視点レンダリングを提案する。
論文 参考訳(メタデータ) (2021-09-20T08:59:21Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。