論文の概要: LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2305.11577v3
- Date: Sat, 2 Mar 2024 12:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:04:31.330946
- Title: LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model
- Title(参考訳): leftrefill:一般化テキストから画像への拡散モデルによる左参照に基づく右キャンバスの充填
- Authors: Chenjie Cao, Yunuo Cai, Qiaole Dong, Yikai Wang, Yanwei Fu
- Abstract要約: leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
- 参考スコア(独自算出の注目度): 55.20469538848806
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces LeftRefill, an innovative approach to efficiently
harness large Text-to-Image (T2I) diffusion models for reference-guided image
synthesis. As the name implies, LeftRefill horizontally stitches reference and
target views together as a whole input. The reference image occupies the left
side, while the target canvas is positioned on the right. Then, LeftRefill
paints the right-side target canvas based on the left-side reference and
specific task instructions. Such a task formulation shares some similarities
with contextual inpainting, akin to the actions of a human painter. This novel
formulation efficiently learns both structural and textured correspondence
between reference and target without other image encoders or adapters. We
inject task and view information through cross-attention modules in T2I models,
and further exhibit multi-view reference ability via the re-arranged
self-attention modules. These enable LeftRefill to perform consistent
generation as a generalized model without requiring test-time fine-tuning or
model modifications. Thus, LeftRefill can be seen as a simple yet unified
framework to address reference-guided synthesis. As an exemplar, we leverage
LeftRefill to address two different challenges: reference-guided inpainting and
novel view synthesis, based on the pre-trained StableDiffusion. Codes and
models are released at https://github.com/ewrfcas/LeftRefill.
- Abstract(参考訳): 本稿では,大規模なテキスト・ツー・イメージ(t2i)拡散モデルを用いた参照誘導画像合成手法であるleftrefillを提案する。
名前が示すように、LeftRefillは、参照ビューとターゲットビューをインプット全体として水平に縫合する。
基準画像は左側を占有し、目標キャンバスは右側に位置する。
そして、左refillは左サイド参照と特定のタスク命令に基づいて右サイドターゲットキャンバスを描画する。
このようなタスクの定式化は、人間の画家の行動に類似した文脈的なインペインティングといくつかの類似性を共有している。
この新規な定式化は、他の画像エンコーダやアダプタなしで、参照とターゲットの両方の構造的およびテクスチャ的対応を効率的に学習する。
t2iモデルにクロスアテンションモジュールを介してタスクとビュー情報を注入し、さらに再配置された自己アテンションモジュールを介してマルチビュー参照能力を示す。
これにより、テスト時の微調整やモデル修正を必要とせずに、一般モデルとして一貫した生成を実行できる。
したがって、左refillは参照誘導合成を扱うための単純で統一されたフレームワークと見なすことができる。
例示として、私たちはleftrefillを利用して、事前訓練されたstablediffusionに基づいて、参照誘導型インペインティングと新しいビュー合成という2つの異なる課題に対処しています。
コードとモデルはhttps://github.com/ewrfcas/leftrefillでリリースされる。
関連論文リスト
- Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - SingleInsert: Inserting New Concepts from a Single Image into
Text-to-Image Models for Flexible Editing [59.3017821001455]
SingleInsert(シングルインサート)は、イメージ・トゥ・テキスト(I2T)のインバージョン手法であり、同じ概念を含む単一のソースイメージを持つ。
本研究では,SingleInsertという,シングルイメージI2Tインバージョンのためのシンプルで効果的なベースラインを提案する。
提案手法により、SingleInsertは、フレキシブルな編集を可能にしながら、高い視覚的忠実度でシングルコンセプト生成に優れる。
論文 参考訳(メタデータ) (2023-10-12T07:40:39Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Compact Bidirectional Transformer for Image Captioning [15.773455578749118]
画像キャプションのためのコンパクトな双方向トランスフォーマーモデルを導入し、双方向コンテキストを暗黙的かつ明示的に活用する。
我々は、MSCOCOベンチマークに関する広範囲なアブレーション研究を行い、コンパクトアーキテクチャが、暗黙的に双方向コンテキストを活用するための正規化として機能することを発見した。
我々は、非視覚言語事前学習モデルと比較して、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-01-06T09:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。