論文の概要: ReCo: Region-Controlled Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2211.15518v1
- Date: Wed, 23 Nov 2022 18:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 13:58:50.381397
- Title: ReCo: Region-Controlled Text-to-Image Generation
- Title(参考訳): ReCo: 地域別テキスト・画像生成
- Authors: Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei
Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang
- Abstract要約: 大規模テキスト・ツー・イメージ(T2I)モデルでは,高忠実度画像の生成に優れた性能を示した。
本稿では,T2I生成における地域制御の効果的な手法を提案する。
このような新しい入力インタフェースで事前学習したT2Iモデルを微調整する。
- 参考スコア(独自算出の注目度): 155.17312051375328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale text-to-image (T2I) models have shown impressive
performance in generating high-fidelity images, but with limited
controllability, e.g., precisely specifying the content in a specific region
with a free-form text description. In this paper, we propose an effective
technique for such regional control in T2I generation. We augment T2I models'
inputs with an extra set of position tokens, which represent the quantized
spatial coordinates. Each region is specified by four position tokens to
represent the top-left and bottom-right corners, followed by an open-ended
natural language regional description. Then, we fine-tune a pre-trained T2I
model with such new input interface. Our model, dubbed as ReCo
(Region-Controlled T2I), enables the region control for arbitrary objects
described by open-ended regional texts rather than by object labels from a
constrained category set. Empirically, ReCo achieves better image quality than
the T2I model strengthened by positional words (FID: 8.82->7.36, SceneFID:
15.54->6.51 on COCO), together with objects being more accurately placed,
amounting to a 20.40% region classification accuracy improvement on COCO.
Furthermore, we demonstrate that ReCo can better control the object count,
spatial relationship, and region attributes such as color/size, with the
free-form regional description. Human evaluation on PaintSkill shows that ReCo
is +19.28% and +17.21% more accurate in generating images with correct object
count and spatial relationship than the T2I model.
- Abstract(参考訳): 近年の大規模テキスト・ツー・イメージ(t2i)モデルは、高忠実度画像の生成において印象的な性能を示しているが、自由形式のテキスト記述で特定の領域内のコンテンツを正確に指定するなど、制御性は限られている。
本稿では,T2I生成における地域制御に有効な手法を提案する。
我々はT2Iモデルの入力を、量子化された空間座標を表す余分な位置トークンで拡張する。
各地域は、左上隅と右下隅を表すために4つの位置トークンで指定され、その後、オープンな自然言語の地域記述が続く。
次に,事前学習したt2iモデルを新しい入力インタフェースで微調整する。
我々のモデルはReCo(Region-Controlled T2I)と呼ばれ、制約付きカテゴリセットのオブジェクトラベルではなく、オープンエンドの地域テキストで記述された任意のオブジェクトの領域制御を可能にする。
実証的には、ReCoは位置的単語(FID: 8.82->7.36, SceneFID: 15.54->6.51, COCO)によって強化されたT2Iモデルよりも画質が向上し、COCOの20.40%の領域分類精度が向上した。
さらに,自由形式の地域記述を用いて,recoが対象数,空間的関係,色・サイズなどの領域属性をよりよく制御できることを実証する。
PaintSkillの人間による評価では、ReCoはT2Iモデルよりも正確な対象数と空間的関係を持つ画像を生成するのに+19.28%、+17.21%正確である。
関連論文リスト
- CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Refine and Represent: Region-to-Object Representation Learning [55.70715883351945]
本稿では、領域ベースとオブジェクト中心の事前学習を統一する領域対オブジェクト表現学習(R2O)を提案する。
R2Oは、エンコーダを訓練して、領域ベースのセグメントをオブジェクト中心のマスクに動的に洗練する。
ImageNetで事前トレーニングを行った後、R2Oモデルは教師なしオブジェクトセグメンテーションにおける既存の最先端技術を上回ることができる。
論文 参考訳(メタデータ) (2022-08-25T01:44:28Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z) - Language-Driven Region Pointer Advancement for Controllable Image
Captioning [2.6126186108561895]
本稿では,言語構造の自然な部分として進行段階を扱い,領域ポインター進行のタイミングを予測する新しい手法を提案する。
Flickr30k Entitiesテストデータでは、精度86.55%、リコール97.92%である。
論文 参考訳(メタデータ) (2020-11-30T15:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。