論文の概要: FineControlNet: Fine-level Text Control for Image Generation with
Spatially Aligned Text Control Injection
- arxiv url: http://arxiv.org/abs/2312.09252v1
- Date: Thu, 14 Dec 2023 18:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:17:41.514727
- Title: FineControlNet: Fine-level Text Control for Image Generation with
Spatially Aligned Text Control Injection
- Title(参考訳): FineControlNet:空間配向テキスト制御注入による画像生成のための微細レベルテキスト制御
- Authors: Hongsuk Choi, Isaac Kasahara, Selim Engin, Moritz Graule, Nikhil
Chavan-Dafle, and Volkan Isler
- Abstract要約: FineControlNetは、正確なポーズ制御能力を維持しながら、各インスタンスの外観を細かく制御する。
FineControlNetは、ユーザが提供したインスタンス固有のテキストプロンプトとポーズに従うイメージを生成する上で、優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 28.65209293141492
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently introduced ControlNet has the ability to steer the text-driven image
generation process with geometric input such as human 2D pose, or edge
features. While ControlNet provides control over the geometric form of the
instances in the generated image, it lacks the capability to dictate the visual
appearance of each instance. We present FineControlNet to provide fine control
over each instance's appearance while maintaining the precise pose control
capability. Specifically, we develop and demonstrate FineControlNet with
geometric control via human pose images and appearance control via
instance-level text prompts. The spatial alignment of instance-specific text
prompts and 2D poses in latent space enables the fine control capabilities of
FineControlNet. We evaluate the performance of FineControlNet with rigorous
comparison against state-of-the-art pose-conditioned text-to-image diffusion
models. FineControlNet achieves superior performance in generating images that
follow the user-provided instance-specific text prompts and poses compared with
existing methods. Project webpage:
https://samsunglabs.github.io/FineControlNet-project-page
- Abstract(参考訳): 最近導入されたcontrolnetは、人間の2dポーズやエッジ機能などの幾何学的な入力でテキスト駆動画像生成プロセスを制御できる。
controlnetは生成された画像のインスタンスの幾何形式の制御を提供するが、各インスタンスの視覚的な外観を決定する機能は欠落している。
正確なポーズ制御能力を維持しつつ,各インスタンスの外観を細かく制御するFinControlNetを提案する。
具体的には,人間のポーズ画像による幾何学的制御と,インスタンスレベルのテキストプロンプトによる出現制御を備えたファインコントロールネットを開発し,実演する。
インスタンス固有のテキストプロンプトと2Dポーズの空間的アライメントは、FinControlNetの細かい制御機能を実現する。
我々はFinControlNetの性能を最先端のポーズ-条件付きテキスト-画像拡散モデルと厳密な比較で評価した。
finecontrolnetは、ユーザが提供するインスタンス固有のテキストプロンプトに従って画像を生成することで、既存の方法と比較して優れたパフォーマンスを実現する。
プロジェクトWebページ:https://samsunglabs.github.io/FineControlNet-project-page
関連論文リスト
- Enhancing Prompt Following with Visual Control Through Training-Free Mask-Guided Diffusion [27.61734719689046]
視覚制御によるプロンプト追従を強化するために,Mask-guided Prompt following (MGPF) というトレーニングフリーアプローチを提案する。
MGPFの有効性と優位性は、総合的な定量的および定性的実験によって検証される。
論文 参考訳(メタデータ) (2024-04-23T06:10:43Z) - Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、画像/ビデオ拡散モデルに多様な制御を追加する効率的なフレームワークである。
Ctrl-Adapterは、画像制御、ビデオ制御、スパースフレームによるビデオ制御、マルチ条件制御、ビデオ編集などの機能を提供する。
多様な画像/ビデオ拡散バックボーン(SDXL、Hotshot-XL、I2VGen-XL、SVD)により、Ctrl-Adapterはコントロールネットとマッチングし、ビデオ制御のすべてのベースラインを上回っている。
論文 参考訳(メタデータ) (2024-04-15T17:45:36Z) - SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions [59.53867290769282]
テキストプロンプトに適応するための粗い視覚条件を修正するために,SmartControlと呼ばれる新しいT2I生成手法を提案する。
SmartControlのキーとなる考え方は、テキストプロンプトと矛盾する領域の視覚状態を緩和することです。
4つの典型的な視覚条件に対する実験は、我々のSmartControlが最先端技術に対して有効であることを明確に示している。
論文 参考訳(メタデータ) (2024-04-09T16:53:43Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models [21.379896810560282]
一般的なアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
本研究では,制御ネットXSと呼ばれる新しい制御アーキテクチャを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍の速度です。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Meta ControlNet: Enhancing Task Adaptation via Meta Learning [111.16980465577682]
近年,拡散に基づく画像合成が注目されている。
画像ベースのプロンプトを使用するControlNetは、キャニーエッジ検出などのイメージタスクに強力な能力を示し、これらのプロンプトによく適合した画像を生成する。
最近の文脈学習アプローチは適応性を改善しているが、主にエッジベースのタスクに向いており、ペア化された例に依存している。
本稿では,タスクに依存しないメタ学習技術を採用し,新しい層凍結設計を特徴とするMeta ControlNet法を提案する。
論文 参考訳(メタデータ) (2023-12-03T01:36:45Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。