Fugu-MT 論文翻訳(概要): FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection

論文の概要: FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection

arxiv url: http://arxiv.org/abs/2312.09252v1
Date: Thu, 14 Dec 2023 18:59:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 20:17:41.514727
Title: FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection
Title（参考訳）: FineControlNet:空間配向テキスト制御注入による画像生成のための微細レベルテキスト制御
Authors: Hongsuk Choi, Isaac Kasahara, Selim Engin, Moritz Graule, Nikhil Chavan-Dafle, and Volkan Isler
Abstract要約: FineControlNetは、正確なポーズ制御能力を維持しながら、各インスタンスの外観を細かく制御する。 FineControlNetは、ユーザが提供したインスタンス固有のテキストプロンプトとポーズに従うイメージを生成する上で、優れたパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 28.65209293141492
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recently introduced ControlNet has the ability to steer the text-driven image generation process with geometric input such as human 2D pose, or edge features. While ControlNet provides control over the geometric form of the instances in the generated image, it lacks the capability to dictate the visual appearance of each instance. We present FineControlNet to provide fine control over each instance's appearance while maintaining the precise pose control capability. Specifically, we develop and demonstrate FineControlNet with geometric control via human pose images and appearance control via instance-level text prompts. The spatial alignment of instance-specific text prompts and 2D poses in latent space enables the fine control capabilities of FineControlNet. We evaluate the performance of FineControlNet with rigorous comparison against state-of-the-art pose-conditioned text-to-image diffusion models. FineControlNet achieves superior performance in generating images that follow the user-provided instance-specific text prompts and poses compared with existing methods. Project webpage: https://samsunglabs.github.io/FineControlNet-project-page
Abstract（参考訳）: 最近導入されたcontrolnetは、人間の2dポーズやエッジ機能などの幾何学的な入力でテキスト駆動画像生成プロセスを制御できる。 controlnetは生成された画像のインスタンスの幾何形式の制御を提供するが、各インスタンスの視覚的な外観を決定する機能は欠落している。正確なポーズ制御能力を維持しつつ,各インスタンスの外観を細かく制御するFinControlNetを提案する。具体的には,人間のポーズ画像による幾何学的制御と,インスタンスレベルのテキストプロンプトによる出現制御を備えたファインコントロールネットを開発し,実演する。インスタンス固有のテキストプロンプトと2Dポーズの空間的アライメントは、FinControlNetの細かい制御機能を実現する。我々はFinControlNetの性能を最先端のポーズ-条件付きテキスト-画像拡散モデルと厳密な比較で評価した。 finecontrolnetは、ユーザが提供するインスタンス固有のテキストプロンプトに従って画像を生成することで、既存の方法と比較して優れたパフォーマンスを実現する。プロジェクトWebページ:https://samsunglabs.github.io/FineControlNet-project-page

関連論文リスト

DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models [55.42794740244581]
マルチ条件画像生成のためのフレームワークであるDC(Decouple)-ControlNetを紹介する。 DC-ControlNetの背景にある基本的な考え方は、制御条件を分離し、グローバルな制御を階層的なシステムに変換することである。要素間の相互作用について、多要素間相互作用を正確に処理するInter-Element Controllerを導入する。
論文参考訳（メタデータ） (2025-02-20T18:01:02Z)
ControlFace: Harnessing Facial Parametric Control for Face Rigging [31.765503860508378]
フレキシブルで高忠実な制御を可能にする3DMMレンダリングに条件付けされた新しい顔リグ手法であるControlFaceを導入する。ひとつはFaceNetと呼ばれ、アイデンティティと詳細をキャプチャし、もうひとつは生成に焦点を当てています。顔ビデオデータセットをトレーニングすることで、FaceNetのリッチな表現を完全に活用し、コントロールの順守を確保します。
論文参考訳（メタデータ） (2024-12-02T06:00:27Z)
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文参考訳（メタデータ） (2024-06-27T07:40:59Z)
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。 6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文参考訳（メタデータ） (2024-04-15T17:45:36Z)
SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions [59.53867290769282]
テキストプロンプトに適応するための粗い視覚条件を修正するために,SmartControlと呼ばれる新しいT2I生成手法を提案する。 SmartControlのキーとなる考え方は、テキストプロンプトと矛盾する領域の視覚状態を緩和することです。 4つの典型的な視覚条件に対する実験は、我々のSmartControlが最先端技術に対して有効であることを明確に示している。
論文参考訳（メタデータ） (2024-04-09T16:53:43Z)
Layout-to-Image Generation with Localized Descriptions using ControlNet with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文参考訳（メタデータ） (2024-02-20T22:15:13Z)
ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems [19.02295657801464]
本研究では,既存の制御ネットワーク(ControlNet)を用いて,制御ネットワークと生成プロセス間の通信を高周波かつ大帯域で変更する。我々は,深度,キャニーエッジ,セマンティックセグメンテーションなどの画素レベルのガイダンスに対する最先端のアプローチよりも優れており,人間のポーズのゆるいキーポイントガイダンスと同等である。すべてのコードと事前訓練されたモデルは公開されます。
論文参考訳（メタデータ） (2023-12-11T17:58:06Z)
Fine-grained Controllable Video Generation via Object Appearance and Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文参考訳（メタデータ） (2023-12-05T17:47:33Z)
Meta ControlNet: Enhancing Task Adaptation via Meta Learning [111.16980465577682]
近年,拡散に基づく画像合成が注目されている。画像ベースのプロンプトを使用するControlNetは、キャニーエッジ検出などのイメージタスクに強力な能力を示し、これらのプロンプトによく適合した画像を生成する。最近の文脈学習アプローチは適応性を改善しているが、主にエッジベースのタスクに向いており、ペア化された例に依存している。本稿では,タスクに依存しないメタ学習技術を採用し,新しい層凍結設計を特徴とするMeta ControlNet法を提案する。
論文参考訳（メタデータ） (2023-12-03T01:36:45Z)
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:58Z)
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。 UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。 9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文参考訳（メタデータ） (2023-05-18T17:41:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。