論文の概要: Re-Imagen: Retrieval-Augmented Text-to-Image Generator
- arxiv url: http://arxiv.org/abs/2209.14491v1
- Date: Thu, 29 Sep 2022 00:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 15:50:56.913103
- Title: Re-Imagen: Retrieval-Augmented Text-to-Image Generator
- Title(参考訳): re-imagen: 検索型テキスト対画像生成器
- Authors: Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen
- Abstract要約: 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
- 参考スコア(独自算出の注目度): 58.60472701831404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on text-to-image generation has witnessed significant progress in
generating diverse and photo-realistic images, driven by diffusion and
auto-regressive models trained on large-scale image-text data. Though
state-of-the-art models can generate high-quality images of common entities,
they often have difficulty generating images of uncommon entities, such as
`Chortai (dog)' or `Picarones (food)'. To tackle this issue, we present the
Retrieval-Augmented Text-to-Image Generator (Re-Imagen), a generative model
that uses retrieved information to produce high-fidelity and faithful images,
even for rare or unseen entities. Given a text prompt, Re-Imagen accesses an
external multi-modal knowledge base to retrieve relevant (image, text) pairs,
and uses them as references to generate the image. With this retrieval step,
Re-Imagen is augmented with the knowledge of high-level semantics and low-level
visual details of the mentioned entities, and thus improves its accuracy in
generating the entities' visual appearances. We train Re-Imagen on a
constructed dataset containing (image, text, retrieval) triples to teach the
model to ground on both text prompt and retrieval. Furthermore, we develop a
new sampling strategy to interleave the classifier-free guidance for text and
retrieval condition to balance the text and retrieval alignment. Re-Imagen
achieves new SoTA FID results on two image generation benchmarks, such as COCO
(ie, FID = 5.25) and WikiImage (ie, FID = 5.82) without fine-tuning. To further
evaluate the capabilities of the model, we introduce EntityDrawBench, a new
benchmark that evaluates image generation for diverse entities, from frequent
to rare, across multiple visual domains. Human evaluation on EntityDrawBench
shows that Re-Imagen performs on par with the best prior models in
photo-realism, but with significantly better faithfulness, especially on less
frequent entities.
- Abstract(参考訳): テキスト対画像生成の研究は、大規模画像テキストデータで訓練された拡散と自己回帰モデルによって駆動される、多様でフォトリアリスティックな画像の生成において大きな進歩を遂げている。
最先端のモデルでは、共通実体の高品質な画像を生成することができるが、しばしば「Chortai(犬)」「Picarones(食物)」などの一般的でない物体の画像を生成するのが困難である。
この課題に対処するために,検索した情報を用いて高忠実で忠実な画像を生成するRetrieval-Augmented Text-to-Image Generator (Re-Imagen)を提案する。
テキストプロンプトが与えられると、re-imagenは外部のマルチモーダル知識ベースにアクセスして関連する(画像、テキスト)ペアを取得し、それらを参照として画像を生成する。
この検索ステップにより、Re-Imagenは、上述のエンティティの高レベルなセマンティクスと低レベルな視覚的詳細に関する知識を付加し、エンティティの視覚的外観を生成する精度を向上させる。
我々は,(画像,テキスト,検索)トリプルを含む構築されたデータセットで再画像化を訓練し,モデルにテキストのプロンプトと検索の両方に接地するよう教える。
さらに,テキストと検索条件の分類なし指導をインターリーブし,テキストと検索アライメントのバランスをとるための新しいサンプリング手法を開発した。
Re-ImagenはCOCO(ie, FID = 5.25)とWikiImage(ie, FID = 5.82)の2つの画像生成ベンチマークにおいて、微調整なしで新しいSoTA FID結果を達成する。
モデルの性能をさらに評価するために、EntityDrawBenchを導入する。これは、複数の視覚領域にまたがる頻繁な状態から稀な状態まで、多様なエンティティに対する画像生成を評価する新しいベンチマークである。
EntityDrawBenchでの人間による評価は、Re-Imagenがフォトリアリズムの最高の先行モデルと同等だが、特に少ない頻度のエンティティにおいて、はるかに忠実であることを示している。
関連論文リスト
- Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Rich Human Feedback for Text-to-Image Generation [27.030777546301376]
我々は18K生成画像のリッチなフィードバックを収集し、マルチモーダルトランスフォーマーを訓練して、リッチなフィードバックを自動的に予測する。
例えば、高品質なトレーニングデータを選択して微調整し、生成モデルを改善することで、予測されたリッチな人間のフィードバックを利用して画像生成を改善することができることを示す。
論文 参考訳(メタデータ) (2023-12-15T22:18:38Z) - GenEval: An Object-Focused Framework for Evaluating Text-to-Image
Alignment [26.785655363790312]
我々は、合成画像特性を評価するためのオブジェクト中心のフレームワークGenEvalを紹介する。
そこで本研究では,現在のオブジェクト検出モデルを用いてテキスト・ツー・イメージ・モデルの評価を行う。
次に、複数のオープンソーステキスト・ツー・イメージモデルを評価し、それらの相対的生成能力を解析する。
論文 参考訳(メタデータ) (2023-10-17T18:20:03Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。