論文の概要: FineControlNet: Fine-level Text Control for Image Generation with
Spatially Aligned Text Control Injection
- arxiv url: http://arxiv.org/abs/2312.09252v1
- Date: Thu, 14 Dec 2023 18:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:17:41.514727
- Title: FineControlNet: Fine-level Text Control for Image Generation with
Spatially Aligned Text Control Injection
- Title(参考訳): FineControlNet:空間配向テキスト制御注入による画像生成のための微細レベルテキスト制御
- Authors: Hongsuk Choi, Isaac Kasahara, Selim Engin, Moritz Graule, Nikhil
Chavan-Dafle, and Volkan Isler
- Abstract要約: FineControlNetは、正確なポーズ制御能力を維持しながら、各インスタンスの外観を細かく制御する。
FineControlNetは、ユーザが提供したインスタンス固有のテキストプロンプトとポーズに従うイメージを生成する上で、優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 28.65209293141492
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently introduced ControlNet has the ability to steer the text-driven image
generation process with geometric input such as human 2D pose, or edge
features. While ControlNet provides control over the geometric form of the
instances in the generated image, it lacks the capability to dictate the visual
appearance of each instance. We present FineControlNet to provide fine control
over each instance's appearance while maintaining the precise pose control
capability. Specifically, we develop and demonstrate FineControlNet with
geometric control via human pose images and appearance control via
instance-level text prompts. The spatial alignment of instance-specific text
prompts and 2D poses in latent space enables the fine control capabilities of
FineControlNet. We evaluate the performance of FineControlNet with rigorous
comparison against state-of-the-art pose-conditioned text-to-image diffusion
models. FineControlNet achieves superior performance in generating images that
follow the user-provided instance-specific text prompts and poses compared with
existing methods. Project webpage:
https://samsunglabs.github.io/FineControlNet-project-page
- Abstract(参考訳): 最近導入されたcontrolnetは、人間の2dポーズやエッジ機能などの幾何学的な入力でテキスト駆動画像生成プロセスを制御できる。
controlnetは生成された画像のインスタンスの幾何形式の制御を提供するが、各インスタンスの視覚的な外観を決定する機能は欠落している。
正確なポーズ制御能力を維持しつつ,各インスタンスの外観を細かく制御するFinControlNetを提案する。
具体的には,人間のポーズ画像による幾何学的制御と,インスタンスレベルのテキストプロンプトによる出現制御を備えたファインコントロールネットを開発し,実演する。
インスタンス固有のテキストプロンプトと2Dポーズの空間的アライメントは、FinControlNetの細かい制御機能を実現する。
我々はFinControlNetの性能を最先端のポーズ-条件付きテキスト-画像拡散モデルと厳密な比較で評価した。
finecontrolnetは、ユーザが提供するインスタンス固有のテキストプロンプトに従って画像を生成することで、既存の方法と比較して優れたパフォーマンスを実現する。
プロジェクトWebページ:https://samsunglabs.github.io/FineControlNet-project-page
関連論文リスト
- AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文 参考訳(メタデータ) (2024-04-15T17:45:36Z) - SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions [59.53867290769282]
テキストプロンプトに適応するための粗い視覚条件を修正するために,SmartControlと呼ばれる新しいT2I生成手法を提案する。
SmartControlのキーとなる考え方は、テキストプロンプトと矛盾する領域の視覚状態を緩和することです。
4つの典型的な視覚条件に対する実験は、我々のSmartControlが最先端技術に対して有効であることを明確に示している。
論文 参考訳(メタデータ) (2024-04-09T16:53:43Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems [19.02295657801464]
本研究では,既存の制御ネットワーク(ControlNet)を用いて,制御ネットワークと生成プロセス間の通信を高周波かつ大帯域で変更する。
我々は,深度,キャニーエッジ,セマンティックセグメンテーションなどの画素レベルのガイダンスに対する最先端のアプローチよりも優れており,人間のポーズのゆるいキーポイントガイダンスと同等である。
すべてのコードと事前訓練されたモデルは公開されます。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Meta ControlNet: Enhancing Task Adaptation via Meta Learning [111.16980465577682]
近年,拡散に基づく画像合成が注目されている。
画像ベースのプロンプトを使用するControlNetは、キャニーエッジ検出などのイメージタスクに強力な能力を示し、これらのプロンプトによく適合した画像を生成する。
最近の文脈学習アプローチは適応性を改善しているが、主にエッジベースのタスクに向いており、ペア化された例に依存している。
本稿では,タスクに依存しないメタ学習技術を採用し,新しい層凍結設計を特徴とするMeta ControlNet法を提案する。
論文 参考訳(メタデータ) (2023-12-03T01:36:45Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。