論文の概要: ControlFill: Spatially Adjustable Image Inpainting from Prompt Learning
- arxiv url: http://arxiv.org/abs/2503.04268v1
- Date: Thu, 06 Mar 2025 09:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:31.061081
- Title: ControlFill: Spatially Adjustable Image Inpainting from Prompt Learning
- Title(参考訳): ControlFill: プロンプト学習による空間的適応可能な画像の描画
- Authors: Boseong Jeon,
- Abstract要約: textitControlFillという,2つの異なるプロンプトをトレーニングするインペイントフレームワークを紹介します。
推論段階において、これらの学習された埋め込みは、重いテキストエンコーダを必要とせずに動作する拡散ネットワークを誘導する。
- 参考スコア(独自算出の注目度): 0.9790236766474201
- License:
- Abstract: In this report, I present an inpainting framework named \textit{ControlFill}, which involves training two distinct prompts: one for generating plausible objects within a designated mask (\textit{creation}) and another for filling the region by extending the background (\textit{removal}). During the inference stage, these learned embeddings guide a diffusion network that operates without requiring heavy text encoders. By adjusting the relative significance of the two prompts and employing classifier-free guidance, users can control the intensity of removal or creation. Furthermore, I introduce a method to spatially vary the intensity of guidance by assigning different scales to individual pixels.
- Abstract(参考訳): 本報告では,指定マスク内で可塑性オブジェクトを生成すること (\textit{creation}) と,背景を拡張して領域を埋めること (\textit{removal}) の2つの異なるプロンプトをトレーニングする。
推論段階において、これらの学習された埋め込みは、重いテキストエンコーダを必要とせずに動作する拡散ネットワークを誘導する。
2つのプロンプトの相対的重要性を調整し、分類子なし指導を採用することで、ユーザは削除や作成の強度を制御できる。
さらに,個々の画素に異なるスケールを割り当てることで,誘導の強度を空間的に変化させる手法を提案する。
関連論文リスト
- Object-level Visual Prompts for Compositional Image Generation [75.6085388740087]
テキストから画像への拡散モデルにおいて,オブジェクトレベルの視覚的プロンプトを構成する手法を提案する。
このタスクにおける重要な課題は、入力された視覚的プロンプトで表現されたオブジェクトのアイデンティティを保持することである。
我々は、キーと値が異なる視覚的表現から学習される新しいKV混合のクロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-01-02T18:59:44Z) - TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [84.08181780666698]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。
提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。
TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文 参考訳(メタデータ) (2024-11-01T04:41:00Z) - Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Scribble-Guided Diffusion for Training-free Text-to-Image Generation [17.930032337081673]
Scribble-Guided Diffusion (ScribbleDiff)は、単純なユーザが提供するスクリブルを視覚的プロンプトとして利用して画像生成を誘導する、トレーニング不要のアプローチである。
モーメントアライメントとスクリブル伝搬を導入し、生成した画像とスクリブル入力のより効果的で柔軟なアライメントを可能にする。
論文 参考訳(メタデータ) (2024-09-12T13:13:07Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - Masked-Attention Diffusion Guidance for Spatially Controlling
Text-to-Image Generation [1.0152838128195465]
拡散モデルのさらなる訓練を伴わずにテキスト・画像生成を空間的に制御する手法を提案する。
我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。
論文 参考訳(メタデータ) (2023-08-11T09:15:22Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。