論文の概要: Proportion and Perspective Control for Flow-Based Image Generation
- arxiv url: http://arxiv.org/abs/2510.21763v1
- Date: Mon, 13 Oct 2025 13:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.956405
- Title: Proportion and Perspective Control for Flow-Based Image Generation
- Title(参考訳): フローベース画像生成のためのプロポーションとパースペクティブ制御
- Authors: Julien Boudier, Hugo Caselles-Dupré,
- Abstract要約: 芸術的制御に特化した2つの制御ネットを導入・評価する。
パーセンテージコントロールネットは、オブジェクトの位置とスケールを決定するためにバウンディングボックスを使用し、パーセンテージコントロールネットは、シーンの3D幾何学を制御するために、消滅するラインを使用している。
- 参考スコア(独自算出の注目度): 1.9336815376402718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While modern text-to-image diffusion models generate high-fidelity images, they offer limited control over the spatial and geometric structure of the output. To address this, we introduce and evaluate two ControlNets specialized for artistic control: (1) a proportion ControlNet that uses bounding boxes to dictate the position and scale of objects, and (2) a perspective ControlNet that employs vanishing lines to control the 3D geometry of the scene. We support the training of these modules with data pipelines that leverage vision-language models for annotation and specialized algorithms for conditioning image synthesis. Our experiments demonstrate that both modules provide effective control but exhibit limitations with complex constraints. Both models are released on HuggingFace: https://huggingface.co/obvious-research
- Abstract(参考訳): 現代のテキスト・画像拡散モデルは高忠実度画像を生成するが、出力の空間的・幾何学的構造を限定的に制御できる。
そこで我々は,物体の位置と規模を決定するために境界ボックスを使用する制御ネットと,シーンの3次元形状を制御するために消滅線を利用する視点制御ネットという,芸術的制御に特化した2つの制御ネットを紹介し,評価する。
我々は、アノテーションのための視覚言語モデルと条件付き画像合成のための特殊なアルゴリズムを利用するデータパイプラインによるこれらのモジュールのトレーニングをサポートする。
実験では, 両モジュールが効率的な制御を行うが, 複雑な制約を伴って制限を示すことを示した。
HuggingFace: https://huggingface.co/obvious-Research
関連論文リスト
- SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling [62.89824987879374]
本研究では,3次元生成の空間的制御を明示する訓練不要なテストタイム手法であるSpaceControlを紹介する。
SpaceControlは、追加のトレーニングを必要とせずに、現代的な事前訓練された生成モデルとシームレスに統合する。
テクスチャ化された3Dアセットへの直接変換を行うために,スーパークワッドリックのオンライン編集を可能にする対話型ユーザインタフェースを提案する。
論文 参考訳(メタデータ) (2025-12-05T00:54:48Z) - A Two-Stage System for Layout-Controlled Image Generation using Large Language Models and Diffusion Models [0.0]
テキストから画像への拡散モデルは、顕著な生成能力を示すが、対象数や空間配置の正確な制御は欠如している。
この研究は、これらの構成制限に対処する2段階のシステムを導入する。
最初のステージでは、オブジェクトのリストから構造化レイアウトを生成するために、LLM(Large Language Model)を採用している。
第2段階では、レイアウト条件付き拡散モデルを用いて、このレイアウトに付着したフォトリアリスティック画像を合成する。
論文 参考訳(メタデータ) (2025-11-10T09:40:48Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance [36.50036055679903]
最近の制御可能な生成手法は、補助モジュールを訓練することなく、テキスト・ツー・イメージ(T2I)拡散モデルにきめ細かい空間的および外観的制御をもたらす。
この研究は、追加のトレーニングやガイダンスなしでT2I拡散制御構造と外観の単純なフレームワークであるCtrl-Xを提示する。
論文 参考訳(メタデータ) (2024-06-11T17:59:01Z) - FreeControl: Training-Free Spatial Control of Any Text-to-Image
Diffusion Model with Any Condition [41.92032568474062]
FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。
複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。
トレーニングベースのアプローチで、競争力のある合成品質を実現する。
論文 参考訳(メタデータ) (2023-12-12T18:59:14Z) - ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems [19.02295657801464]
本研究では,既存の制御ネットワーク(ControlNet)を用いて,制御ネットワークと生成プロセス間の通信を高周波かつ大帯域で変更する。
我々は,深度,キャニーエッジ,セマンティックセグメンテーションなどの画素レベルのガイダンスに対する最先端のアプローチよりも優れており,人間のポーズのゆるいキーポイントガイダンスと同等である。
すべてのコードと事前訓練されたモデルは公開されます。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。
NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。