論文の概要: RealCustom: Narrowing Real Text Word for Real-Time Open-Domain
Text-to-Image Customization
- arxiv url: http://arxiv.org/abs/2403.00483v1
- Date: Fri, 1 Mar 2024 12:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:26:44.931440
- Title: RealCustom: Narrowing Real Text Word for Real-Time Open-Domain
Text-to-Image Customization
- Title(参考訳): RealCustom: リアルタイムオープンドメインテキスト画像カスタマイズのためのリアルテキストワード
- Authors: Mengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang
- Abstract要約: テキスト・ツー・イメージのカスタマイズは、与えられた被験者に対してテキスト駆動の画像を合成することを目的としている。
既存の作品は擬似語パラダイム、すなわち、与えられた主題を擬似語として表現し、与えられたテキストで合成する。
我々は、RealCustomを初めて、被写体の影響を関連部分のみに正確に制限することで、制御性から類似性を解き放つことを提示する。
- 参考スコア(独自算出の注目度): 57.86083349873154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image customization, which aims to synthesize text-driven images for
the given subjects, has recently revolutionized content creation. Existing
works follow the pseudo-word paradigm, i.e., represent the given subjects as
pseudo-words and then compose them with the given text. However, the inherent
entangled influence scope of pseudo-words with the given text results in a
dual-optimum paradox, i.e., the similarity of the given subjects and the
controllability of the given text could not be optimal simultaneously. We
present RealCustom that, for the first time, disentangles similarity from
controllability by precisely limiting subject influence to relevant parts only,
achieved by gradually narrowing real text word from its general connotation to
the specific subject and using its cross-attention to distinguish relevance.
Specifically, RealCustom introduces a novel "train-inference" decoupled
framework: (1) during training, RealCustom learns general alignment between
visual conditions to original textual conditions by a novel adaptive scoring
module to adaptively modulate influence quantity; (2) during inference, a novel
adaptive mask guidance strategy is proposed to iteratively update the influence
scope and influence quantity of the given subjects to gradually narrow the
generation of the real text word. Comprehensive experiments demonstrate the
superior real-time customization ability of RealCustom in the open domain,
achieving both unprecedented similarity of the given subjects and
controllability of the given text for the first time. The project page is
https://corleone-huang.github.io/realcustom/.
- Abstract(参考訳): テキスト・ツー・イメージのカスタマイズ(テキスト・ツー・イメージのカスタマイズ)は、最近コンテンツ作成に革命をもたらした。
既存の作品は擬似語パラダイム、すなわち、与えられた主題を擬似語として表現し、与えられたテキストで合成する。
しかし、擬似単語と与えられたテキストとの固有の絡み合った影響範囲は、二つの最適パラドックス(すなわち、与えられた主題の類似性と与えられたテキストの制御可能性)をもたらす。
本論では,本論文において,主語の影響を関連部分のみに正確に限定することにより,制御性から類似性を初めて解き放つとともに,対象語を一般意味から特定の対象に徐々に絞り込み,関連性を識別するためにその横断的意図を用いることによって実現した。
具体的には、RealCustomは、(1)トレーニング中に、新しい適応スコアリングモジュールによって、視覚条件と原文条件との一般的な整合性を学び、その影響量を適応的に調整し、(2)推論中に、与えられた被験者の影響範囲と影響量を反復的に更新し、実際のテキスト語の生成を徐々に狭める新しい適応マスクガイダンス戦略を提案する。
包括的実験は、オープンドメインにおけるRealCustomのより優れたリアルタイムカスタマイズ能力を示し、与えられた主題の前例のない類似性と、与えられたテキストの制御性の両方を初めて達成した。
プロジェクトページはhttps://corleone-huang.github.io/realcustom/。
関連論文リスト
- RealCustom++: Representing Images as Real-Word for Real-Time Customization [80.04828124070418]
テキスト・ツー・イメージのカスタマイズは、テキストのセマンティクスと主題の外観の両方に合わせた新しいイメージを合成することを目的としている。
既存の作品は擬単語のパラダイムに従っており、特定の主題を擬単語として表現する。
そこで我々はRealCustom++と呼ばれる新しいリアルワードパラダイムを提案し,その代わりに課題を非コンフリクトなリアルワードとして表現する。
論文 参考訳(メタデータ) (2024-08-19T07:15:44Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。