論文の概要: Harnessing Text-to-Image Attention Prior for Reference-based Multi-view
Image Synthesis
- arxiv url: http://arxiv.org/abs/2305.11577v2
- Date: Sun, 8 Oct 2023 13:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:33:51.672047
- Title: Harnessing Text-to-Image Attention Prior for Reference-based Multi-view
Image Synthesis
- Title(参考訳): 参照型マルチビュー画像合成におけるテキストと画像の調和
- Authors: Chenjie Cao, Yunuo Cai, Qiaole Dong, Yikai Wang, Yanwei Fu
- Abstract要約: 本稿では、参照画像との視覚的整合性を確保しつつ、特定の画像要素やシーン全体を作成することを目的として、マルチビュー画像合成の領域について検討する。
本稿では,参照画像から構造的手がかりを導出する局所合成と,参照例のみに基づく全く新しい画像を生成するグローバル合成の2つのアプローチを分類する。
我々は、局所的およびグローバルな参照ベース・マルチビュー合成をコンテクスト・インペインティングとして再構成する統一的なアプローチであるARCI(Attention Reactivated Contextual Inpainting)を導入する。
- 参考スコア(独自算出の注目度): 55.20469538848806
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores the domain of multi-view image synthesis, aiming to
create specific image elements or entire scenes while ensuring visual
consistency with reference images. We categorize this task into two approaches:
local synthesis, guided by structural cues from reference images
(Reference-based inpainting, Ref-inpainting), and global synthesis, which
generates entirely new images based solely on reference examples (Novel View
Synthesis, NVS). In recent years, Text-to-Image (T2I) generative models have
gained attention in various domains. However, adapting them for multi-view
synthesis is challenging due to the intricate correlations between reference
and target images. To address these challenges efficiently, we introduce
Attention Reactivated Contextual Inpainting (ARCI), a unified approach that
reformulates both local and global reference-based multi-view synthesis as
contextual inpainting, which is enhanced with pre-existing attention mechanisms
in T2I models. Formally, self-attention is leveraged to learn feature
correlations across different reference views, while cross-attention is
utilized to control the generation through prompt tuning. Our contributions of
ARCI, built upon the StableDiffusion fine-tuned for text-guided inpainting,
include skillfully handling difficult multi-view synthesis tasks with
off-the-shelf T2I models, introducing task and view-specific prompt tuning for
generative control, achieving end-to-end Ref-inpainting, and implementing block
causal masking for autoregressive NVS. We also show the versatility of ARCI by
extending it to multi-view generation for superior consistency with the same
architecture, which has also been validated through extensive experiments.
Codes and models will be released in \url{https://github.com/ewrfcas/ARCI}.
- Abstract(参考訳): 本稿では、参照画像との視覚的整合性を確保しつつ、特定の画像要素やシーン全体を作成することを目的としたマルチビュー画像合成の領域について検討する。
この課題を2つのアプローチに分類する: 参照画像からの構造的手がかり(参照に基づくインペインティング、ref-インペインティング)による局所合成と、参照例のみに基づいた全く新しい画像を生成するグローバル合成(novel view synthesis, nvs)である。
近年,テキスト・ツー・イメージ(T2I)生成モデルが様々な領域で注目されている。
しかし,参照画像と対象画像との複雑な相関関係から,マルチビュー合成への適応が困難である。
これらの課題を効果的に解決するために、我々は、T2Iモデルにおける既存の注意機構によって強化された、局所的およびグローバルな参照ベース多視点合成を文脈的着色として再構成する統一的なアプローチであるARCI(Attention Reactivated Contextual Inpainting)を導入する。
形式的には、自己注意を利用して異なる参照ビューにまたがる特徴相関を学習し、一方、相互注意は即時チューニングによって生成を制御する。
テキスト誘導インペインティング用に微調整されたStableDiffusionに基づくARCIのコントリビューションには、既製のT2Iモデルで難しいマルチビュー合成タスクを巧みに処理すること、生成制御のためのタスクとビュー固有のプロンプトチューニングの導入、エンドツーエンドのRef-inpaintingの実現、自動回帰NVSのためのブロック因果マスクの実装などが含まれます。
また、arciをマルチビュー生成に拡張して、同じアーキテクチャとの一貫性を高め、広範囲な実験によって検証することで、arciの汎用性を示す。
コードとモデルは \url{https://github.com/ewrfcas/ARCI} でリリースされる。
関連論文リスト
- Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - SingleInsert: Inserting New Concepts from a Single Image into
Text-to-Image Models for Flexible Editing [59.3017821001455]
SingleInsert(シングルインサート)は、イメージ・トゥ・テキスト(I2T)のインバージョン手法であり、同じ概念を含む単一のソースイメージを持つ。
本研究では,SingleInsertという,シングルイメージI2Tインバージョンのためのシンプルで効果的なベースラインを提案する。
提案手法により、SingleInsertは、フレキシブルな編集を可能にしながら、高い視覚的忠実度でシングルコンセプト生成に優れる。
論文 参考訳(メタデータ) (2023-10-12T07:40:39Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Compact Bidirectional Transformer for Image Captioning [15.773455578749118]
画像キャプションのためのコンパクトな双方向トランスフォーマーモデルを導入し、双方向コンテキストを暗黙的かつ明示的に活用する。
我々は、MSCOCOベンチマークに関する広範囲なアブレーション研究を行い、コンパクトアーキテクチャが、暗黙的に双方向コンテキストを活用するための正規化として機能することを発見した。
我々は、非視覚言語事前学習モデルと比較して、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-01-06T09:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。