Fugu-MT 論文翻訳(概要): Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis

論文の概要: Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis

arxiv url: http://arxiv.org/abs/2412.02168v3
Date: Tue, 25 Mar 2025 03:31:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 21:56:47.135638
Title: Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis
Title（参考訳）: 生成写真:リアルテキスト・画像合成のためのシーン一貫性カメラ制御
Authors: Yu Yuan, Xijun Wang, Yichen Sheng, Prateek Chennuri, Xingguang Zhang, Stanley Chan,
Abstract要約: 本稿では、コンテンツ生成中にカメラ固有の設定を制御できるフレームワーク、Generative Photographyを紹介する。実験結果から,本手法は最先端モデルよりもシーン一貫性のあるフォトリアリスティック画像を生成することがわかった。
参考スコア（独自算出の注目度）: 4.488462428880112
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Image generation today can produce somewhat realistic images from text prompts. However, if one asks the generator to synthesize a specific camera setting such as creating different fields of view using a 24mm lens versus a 70mm lens, the generator will not be able to interpret and generate scene-consistent images. This limitation not only hinders the adoption of generative tools in professional photography but also highlights the broader challenge of aligning data-driven models with real-world physical settings. In this paper, we introduce Generative Photography, a framework that allows controlling camera intrinsic settings during content generation. The core innovation of this work are the concepts of Dimensionality Lifting and Differential Camera Intrinsics Learning, enabling smooth and consistent transitions across different camera settings. Experimental results show that our method produces significantly more scene-consistent photorealistic images than state-of-the-art models such as Stable Diffusion 3 and FLUX. Our code and additional results are available at https://generative-photography.github.io/project.
Abstract（参考訳）: 今日の画像生成は、テキストプロンプトからややリアルなイメージを生成することができる。しかし、24mmのレンズと70mmのレンズで異なる視野を作成できるような特定のカメラ設定をジェネレータに要求すると、生成装置はシーンに一貫性のある画像を解釈して生成することができない。この制限は、プロの写真撮影における生成ツールの採用を妨げるだけでなく、データ駆動モデルと現実世界の物理的な設定を整合させるという、より広範な課題も浮き彫りにしている。本稿では、コンテンツ生成中にカメラ固有の設定を制御できるフレームワーク、Generative Photographyを紹介する。この研究の中核となる革新は、ディメンダリティ・リフティングとディファレンシャル・カメラ固有の学習の概念であり、異なるカメラ設定のスムーズで一貫した遷移を可能にする。実験結果から,本手法は安定拡散3やFLUXのような最先端のモデルよりも,シーン一貫性のあるフォトリアリスティック画像を生成することがわかった。私たちのコードと追加の結果はhttps://generative-photography.github.io/project.comで公開されています。

関連論文リスト

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography [98.28272367169465]
本稿では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現的なカメラトラジェクトリを生成する。包括的で多様なデータベースのおかげで、高品質でコンテキスト対応のカメラムーブメント生成のための自動回帰デコーダのみのトランスフォーマーをトレーニングします。実験により、既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供することが示された。
論文参考訳（メタデータ） (2025-04-09T17:56:01Z)
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文参考訳（メタデータ） (2025-03-14T17:59:31Z)
PreciseCam: Precise Camera Control for Text-to-Image Generation [13.586200016767794]
芸術的な媒体としてのイメージは、アイデアや感情を伝えるために、特定のカメラの角度とレンズの歪みに依存することが多い。本稿では,写真画像と芸術画像の両方を生成する際に,カメラの正確な制御を可能にする,効率的で汎用的なソリューションを提案する。
論文参考訳（メタデータ） (2025-01-22T14:37:01Z)
StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [59.55232046525733]
我々は,LDARポイントクラウドレンダリングをピクセルレベルの条件として利用する,制御可能なビデオ拡散モデルであるStreetCrafterを紹介する。さらに、画素レベルのLiDAR条件を利用することで、ターゲットシーンに対して正確なピクセルレベルの編集を行うことができる。我々のモデルは視点変化を柔軟に制御し、レンダリング領域を満たすためのビューを拡大する。
論文参考訳（メタデータ） (2024-12-17T18:58:55Z)
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文参考訳（メタデータ） (2024-08-19T05:15:45Z)
DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文参考訳（メタデータ） (2023-12-14T08:42:26Z)
Curved Diffusion: A Generative Model With Optical Geometry Control [56.24220665691974]
最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-29T13:06:48Z)
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2023-08-09T17:45:04Z)
Long-Term Photometric Consistent Novel View Synthesis with Diffusion Models [24.301334966272297]
本稿では,特定のカメラ軌跡に整合したフォトリアリスティックな画像列を生成できる新しい生成モデルを提案する。生成したビューのシーケンス上の一貫性を測定するために、新しい計量、しきい値付き対称極性距離(TSED)を導入する。
論文参考訳（メタデータ） (2023-04-21T02:01:02Z)
Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文参考訳（メタデータ） (2022-09-12T17:40:08Z)
GAUDI: A Neural Architect for Immersive 3D Scene Generation [67.97817314857917]
GAUDIは、動くカメラから没入的にレンダリングできる複雑な3Dシーンの分布をキャプチャできる生成モデルである。 GAUDIは,複数のデータセットにまたがる非条件生成環境において,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2022-07-27T19:10:32Z)
Factorized and Controllable Neural Re-Rendering of Outdoor Scene for Photo Extrapolation [50.00344639039158]
本稿では, 乱雑な屋外インターネット写真コレクションから新たなビューを生成するために, ニューラルリレンダリングモデルを提案する。また,テクスチャの詳細を補完する新しいリアリズム拡張法を提案し,そのテクスチャの詳細を狭められた画像から外挿したニューラルレンダリング画像に自動的に伝達する。
論文参考訳（メタデータ） (2022-07-14T13:28:08Z)
FreeStyleGAN: Free-view Editable Portrait Rendering with the Camera Manifold [5.462226912969161]
現在のGAN(Generative Adversarial Networks)は、ポートレート画像のフォトリアリスティックレンダリングを生成する。当社のアプローチは,トレーニング済みのStyleGANを標準の3Dレンダリングパイプラインに統合する上で,どのような効果があるかを示す。本手法は,インタラクティブなレートでリアルな顔の真の自由視点レンダリングを提案する。
論文参考訳（メタデータ） (2021-09-20T08:59:21Z)
CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文参考訳（メタデータ） (2021-03-31T17:59:24Z)
GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文参考訳（メタデータ） (2020-11-24T14:14:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。