論文の概要: Re-Imagen: Retrieval-Augmented Text-to-Image Generator
- arxiv url: http://arxiv.org/abs/2209.14491v2
- Date: Sat, 1 Oct 2022 15:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 10:53:49.934671
- Title: Re-Imagen: Retrieval-Augmented Text-to-Image Generator
- Title(参考訳): re-imagen: 検索型テキスト対画像生成器
- Authors: Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen
- Abstract要約: 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
- 参考スコア(独自算出の注目度): 58.60472701831404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on text-to-image generation has witnessed significant progress in
generating diverse and photo-realistic images, driven by diffusion and
auto-regressive models trained on large-scale image-text data. Though
state-of-the-art models can generate high-quality images of common entities,
they often have difficulty generating images of uncommon entities, such as
`Chortai (dog)' or `Picarones (food)'. To tackle this issue, we present the
Retrieval-Augmented Text-to-Image Generator (Re-Imagen), a generative model
that uses retrieved information to produce high-fidelity and faithful images,
even for rare or unseen entities. Given a text prompt, Re-Imagen accesses an
external multi-modal knowledge base to retrieve relevant (image, text) pairs,
and uses them as references to generate the image. With this retrieval step,
Re-Imagen is augmented with the knowledge of high-level semantics and low-level
visual details of the mentioned entities, and thus improves its accuracy in
generating the entities' visual appearances. We train Re-Imagen on a
constructed dataset containing (image, text, retrieval) triples to teach the
model to ground on both text prompt and retrieval. Furthermore, we develop a
new sampling strategy to interleave the classifier-free guidance for text and
retrieval condition to balance the text and retrieval alignment. Re-Imagen
achieves new SoTA FID results on two image generation benchmarks, such as COCO
(ie, FID = 5.25) and WikiImage (ie, FID = 5.82) without fine-tuning. To further
evaluate the capabilities of the model, we introduce EntityDrawBench, a new
benchmark that evaluates image generation for diverse entities, from frequent
to rare, across multiple visual domains. Human evaluation on EntityDrawBench
shows that Re-Imagen performs on par with the best prior models in
photo-realism, but with significantly better faithfulness, especially on less
frequent entities.
- Abstract(参考訳): テキスト対画像生成の研究は、大規模画像テキストデータで訓練された拡散と自己回帰モデルによって駆動される、多様でフォトリアリスティックな画像の生成において大きな進歩を遂げている。
最先端のモデルでは、共通実体の高品質な画像を生成することができるが、しばしば「Chortai(犬)」「Picarones(食物)」などの一般的でない物体の画像を生成するのが困難である。
この課題に対処するために,検索した情報を用いて高忠実で忠実な画像を生成するRetrieval-Augmented Text-to-Image Generator (Re-Imagen)を提案する。
テキストプロンプトが与えられると、re-imagenは外部のマルチモーダル知識ベースにアクセスして関連する(画像、テキスト)ペアを取得し、それらを参照として画像を生成する。
この検索ステップにより、Re-Imagenは、上述のエンティティの高レベルなセマンティクスと低レベルな視覚的詳細に関する知識を付加し、エンティティの視覚的外観を生成する精度を向上させる。
我々は,(画像,テキスト,検索)トリプルを含む構築されたデータセットで再画像化を訓練し,モデルにテキストのプロンプトと検索の両方に接地するよう教える。
さらに,テキストと検索条件の分類なし指導をインターリーブし,テキストと検索アライメントのバランスをとるための新しいサンプリング手法を開発した。
Re-ImagenはCOCO(ie, FID = 5.25)とWikiImage(ie, FID = 5.82)の2つの画像生成ベンチマークにおいて、微調整なしで新しいSoTA FID結果を達成する。
モデルの性能をさらに評価するために、EntityDrawBenchを導入する。これは、複数の視覚領域にまたがる頻繁な状態から稀な状態まで、多様なエンティティに対する画像生成を評価する新しいベンチマークである。
EntityDrawBenchでの人間による評価は、Re-Imagenがフォトリアリズムの最高の先行モデルと同等だが、特に少ない頻度のエンティティにおいて、はるかに忠実であることを示している。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。