論文の概要: Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2412.02168v2
- Date: Wed, 04 Dec 2024 14:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 11:47:06.847190
- Title: Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis
- Title(参考訳): 生成写真:リアルテキスト・画像合成のためのシーン一貫性カメラ制御
- Authors: Yu Yuan, Xijun Wang, Yichen Sheng, Prateek Chennuri, Xingguang Zhang, Stanley Chan,
- Abstract要約: 本稿では、コンテンツ生成時のカメラ固有の設定を制御するためのフレームワーク、Generative Photographyを紹介した。
実験結果から,本手法は最先端モデルよりもシーン一貫性のあるフォトリアリスティック画像を生成することがわかった。
- 参考スコア(独自算出の注目度): 4.488462428880112
- License:
- Abstract: Image generation today can produce somewhat realistic images from text prompts. However, if one asks the generator to synthesize a particular camera setting such as creating different fields of view using a 24mm lens versus a 70mm lens, the generator will not be able to interpret and generate scene-consistent images. This limitation not only hinders the adoption of generative tools in photography applications but also exemplifies a broader issue of bridging the gap between the data-driven models and the physical world. In this paper, we introduce the concept of Generative Photography, a framework designed to control camera intrinsic settings during content generation. The core innovation of this work are the concepts of Dimensionality Lifting and Contrastive Camera Learning, which achieve continuous and consistent transitions for different camera settings. Experimental results show that our method produces significantly more scene-consistent photorealistic images than state-of-the-art models such as Stable Diffusion 3 and FLUX.
- Abstract(参考訳): 今日の画像生成は、テキストプロンプトからややリアルなイメージを生成することができる。
しかし、24mmのレンズと70mmのレンズで異なる視野を作成できるような特定のカメラ設定をジェネレータに要求すると、生成装置はシーンに一貫性のある画像を解釈して生成することができない。
この制限は、写真アプリケーションにおける生成ツールの採用を妨げるだけでなく、データ駆動モデルと物理世界の間のギャップを埋めるというより広い問題も示している。
本稿では,コンテンツ生成時のカメラ固有の設定を制御するためのフレームワークである生成写真の概念を紹介する。
この研究の中核となる革新は、ディメンダリティ・リフティングとコントラスト・カメラ・ラーニングの概念であり、異なるカメラ設定に対して連続的かつ一貫したトランジションを実現する。
実験結果から,本手法は安定拡散3やFLUXのような最先端のモデルよりも,シーン一貫性のあるフォトリアリスティック画像を生成することがわかった。
関連論文リスト
- GANESH: Generalizable NeRF for Lensless Imaging [12.985055542373791]
GANESHは,レンズレス画像からの高精細化と新鮮視合成を実現するための新しいフレームワークである。
シーン固有のトレーニングを必要とする既存の方法とは異なり、本手法は各シーンで再トレーニングすることなく、オンザフライ推論をサポートする。
この領域の研究を容易にするために、最初のマルチビューレンズレスデータセットであるLenslessScenesも提示する。
論文 参考訳(メタデータ) (2024-11-07T15:47:07Z) - Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Long-Term Photometric Consistent Novel View Synthesis with Diffusion
Models [24.301334966272297]
本稿では,特定のカメラ軌跡に整合したフォトリアリスティックな画像列を生成できる新しい生成モデルを提案する。
生成したビューのシーケンス上の一貫性を測定するために、新しい計量、しきい値付き対称極性距離(TSED)を導入する。
論文 参考訳(メタデータ) (2023-04-21T02:01:02Z) - Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。
提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文 参考訳(メタデータ) (2022-09-12T17:40:08Z) - Factorized and Controllable Neural Re-Rendering of Outdoor Scene for
Photo Extrapolation [50.00344639039158]
本稿では, 乱雑な屋外インターネット写真コレクションから新たなビューを生成するために, ニューラルリレンダリングモデルを提案する。
また,テクスチャの詳細を補完する新しいリアリズム拡張法を提案し,そのテクスチャの詳細を狭められた画像から外挿したニューラルレンダリング画像に自動的に伝達する。
論文 参考訳(メタデータ) (2022-07-14T13:28:08Z) - FreeStyleGAN: Free-view Editable Portrait Rendering with the Camera
Manifold [5.462226912969161]
現在のGAN(Generative Adversarial Networks)は、ポートレート画像のフォトリアリスティックレンダリングを生成する。
当社のアプローチは,トレーニング済みのStyleGANを標準の3Dレンダリングパイプラインに統合する上で,どのような効果があるかを示す。
本手法は,インタラクティブなレートでリアルな顔の真の自由視点レンダリングを提案する。
論文 参考訳(メタデータ) (2021-09-20T08:59:21Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。