論文の概要: X&Fuse: Fusing Visual Information in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2303.01000v1
- Date: Thu, 2 Mar 2023 06:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:52:46.819571
- Title: X&Fuse: Fusing Visual Information in Text-to-Image Generation
- Title(参考訳): X&Fuse:テキスト・画像生成における視覚情報の利用
- Authors: Yuval Kirstain, Omer Levy, Adam Polyak
- Abstract要約: X&Fuseはテキストから画像を生成する際の視覚情報に基づく一般的な手法である。
我々は3つの異なるテキスト・画像生成シナリオにおけるX&Fuseの可能性を示す。
- 参考スコア(独自算出の注目度): 53.34490228589055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce X&Fuse, a general approach for conditioning on visual
information when generating images from text. We demonstrate the potential of
X&Fuse in three different text-to-image generation scenarios. (i) When a bank
of images is available, we retrieve and condition on a related image
(Retrieve&Fuse), resulting in significant improvements on the MS-COCO
benchmark, gaining a state-of-the-art FID score of 6.65 in zero-shot settings.
(ii) When cropped-object images are at hand, we utilize them and perform
subject-driven generation (Crop&Fuse), outperforming the textual inversion
method while being more than x100 faster. (iii) Having oracle access to the
image scene (Scene&Fuse), allows us to achieve an FID score of 5.03 on MS-COCO
in zero-shot settings. Our experiments indicate that X&Fuse is an effective,
easy-to-adapt, simple, and general approach for scenarios in which the model
may benefit from additional visual information.
- Abstract(参考訳): X&Fuseはテキストから画像を生成する際の視覚情報に基づく一般的な手法である。
3つの異なるテキスト・画像生成シナリオにおけるX&Fuseの可能性を示す。
(i)画像バンクが利用可能になると、関連する画像(Retrieve&Fuse)を検索して条件付けし、MS-COCOベンチマークを大幅に改善し、ゼロショット設定で6.65の最先端のFIDスコアを得る。
(ii) 被写体画像が手元にある場合,これらを利用して被写体駆動生成(crop&fuse)を行い,x100以上高速でテキスト反転法を上回った。
3)画像シーンへのオラクルアクセス(Scene&Fuse)により、ゼロショット設定でMS-COCOのFIDスコア5.03を達成することができる。
実験の結果,X&Fuseは,モデルが付加的な視覚情報から恩恵を受けるシナリオに対して,効果的で,適応しやすく,シンプルで,汎用的なアプローチであることが示唆された。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation [36.45222068699805]
AOG-Netは、NFoVとテキストガイダンスを併用または個別に、不完全な画像を段階的に描画することで、360度画像生成のために提案される。
各自己回帰ステップにおいて、アウトペイントガイダンスを定式化するために、グローバルローカルコンディショニング機構が考案された。
室内と屋外の両方でよく使用される2つの360度画像データセットに関する総合実験により,提案手法の最先端性能が実証された。
論文 参考訳(メタデータ) (2023-09-07T03:22:59Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。