論文の概要: LACONIC: A 3D Layout Adapter for Controllable Image Creation
- arxiv url: http://arxiv.org/abs/2507.03257v1
- Date: Fri, 04 Jul 2025 02:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.640697
- Title: LACONIC: A 3D Layout Adapter for Controllable Image Creation
- Title(参考訳): LACONIC:制御可能な画像作成のための3Dレイアウトアダプタ
- Authors: Léopold Maillard, Tom Durand, Adrien Ramanana Rahary, Maks Ovsjanikov,
- Abstract要約: 誘導画像合成のための既存の生成アプローチは、画像やテキスト空間の2D制御に依存している。
本稿では,事前訓練されたテキスト・画像拡散モデルに接続可能な新しい条件付け手法,トレーニング方法,アダプタネットワークを提案する。
本手法は, カメラ制御, 明快な3次元空間におけるジオメトリの条件付け, シーンのコンテキスト全体について初めて記述する。
- 参考スコア(独自算出の注目度): 22.96293773013579
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing generative approaches for guided image synthesis of multi-object scenes typically rely on 2D controls in the image or text space. As a result, these methods struggle to maintain and respect consistent three-dimensional geometric structure, underlying the scene. In this paper, we propose a novel conditioning approach, training method and adapter network that can be plugged into pretrained text-to-image diffusion models. Our approach provides a way to endow such models with 3D-awareness, while leveraging their rich prior knowledge. Our method supports camera control, conditioning on explicit 3D geometries and, for the first time, accounts for the entire context of a scene, i.e., both on and off-screen items, to synthesize plausible and semantically rich images. Despite its multi-modal nature, our model is lightweight, requires a reasonable number of data for supervised learning and shows remarkable generalization power. We also introduce methods for intuitive and consistent image editing and restyling, e.g., by positioning, rotating or resizing individual objects in a scene. Our method integrates well within various image creation workflows and enables a richer set of applications compared to previous approaches.
- Abstract(参考訳): 多目的シーンの誘導画像合成のための既存の生成的アプローチは、通常、画像やテキスト空間における2D制御に依存している。
その結果、これらの手法は、シーンの根底にある、一貫した3次元幾何学構造の維持と尊重に苦慮している。
本稿では,事前訓練されたテキスト・画像拡散モデルに接続可能な新しい条件付け手法,トレーニング方法,アダプタネットワークを提案する。
私たちのアプローチは、これらのモデルに3D認識を付与すると同時に、彼らの豊富な事前知識を活用する手段を提供します。
本手法は,カメラ制御,明快な3次元空間の条件付け,シーンのコンテキスト全体,すなわちオン・オフ・スクリーン・アイテムを初めて考慮し,可視・セマンティック・リッチな画像の合成を支援する。
そのマルチモーダルな性質にもかかわらず、我々のモデルは軽量であり、教師付き学習に十分な数のデータを必要とし、顕著な一般化力を示している。
また,シーン内の個々の物体の位置決め,回転,縮小によって,直感的で一貫した画像編集と復元を行う手法も導入する。
提案手法は,様々な画像生成ワークフローにうまく統合されており,従来の手法と比較してよりリッチなアプリケーション集合を実現することができる。
関連論文リスト
- Towards Multi-View Consistent Style Transfer with One-Step Diffusion via Vision Conditioning [12.43848969320173]
提案手法により生成した異なる視点からのスティル化画像は、構造的整合性が良く、歪みも少ない、優れた視覚的品質を実現する。
本手法は,3次元情報のないスタイリング画像における構造情報と多視点整合性を効果的に保存する。
論文 参考訳(メタデータ) (2024-11-15T12:02:07Z) - 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文 参考訳(メタデータ) (2024-08-12T13:53:40Z) - 3D Congealing: 3D-Aware Image Alignment in the Wild [44.254247801001675]
3D Congealingは、意味的に類似したオブジェクトをキャプチャする2D画像の3D対応アライメントの問題である。
形状テンプレートやポーズ,あるいは任意のカメラパラメータを仮定することなく,タスクに対処する一般的なフレームワークを導入する。
我々のフレームワークは、対応マッチング、ポーズ推定、画像編集といった様々なタスクに利用できる。
論文 参考訳(メタデータ) (2024-04-02T17:32:12Z) - Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。
提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文 参考訳(メタデータ) (2024-03-18T06:18:59Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - 3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。
本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。
我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:03:18Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。