論文の概要: A Picture is Worth a Thousand Words: Principled Recaptioning Improves
Image Generation
- arxiv url: http://arxiv.org/abs/2310.16656v1
- Date: Wed, 25 Oct 2023 14:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:21:31.463953
- Title: A Picture is Worth a Thousand Words: Principled Recaptioning Improves
Image Generation
- Title(参考訳): 画像は数千ワードの価値:原則的再カプセル化は画像生成を改善する
- Authors: Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv
Leviathan
- Abstract要約: コーパスを特別な自動キャプションモデルで再現し、再カプセル化データセット上でテキスト・ツー・イメージモデルを訓練することにより、モデルがボード全体に大きなメリットをもたらすことを示す。
我々は、コーパスを緩和する様々な方法を分析し、この手法がRECAPと呼ばれ、どちらも列車の干渉の相違を低減し、例ごとにより多くの情報を提供するという証拠を提供する。
- 参考スコア(独自算出の注目度): 9.552642210681489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models achieved a remarkable leap in capabilities
over the last few years, enabling high-quality and diverse synthesis of images
from a textual prompt. However, even the most advanced models often struggle to
precisely follow all of the directions in their prompts. The vast majority of
these models are trained on datasets consisting of (image, caption) pairs where
the images often come from the web, and the captions are their HTML alternate
text. A notable example is the LAION dataset, used by Stable Diffusion and
other models. In this work we observe that these captions are often of low
quality, and argue that this significantly affects the model's capability to
understand nuanced semantics in the textual prompts. We show that by relabeling
the corpus with a specialized automatic captioning model and training a
text-to-image model on the recaptioned dataset, the model benefits
substantially across the board. First, in overall image quality: e.g. FID 14.84
vs. the baseline of 17.87, and 64.3% improvement in faithful image generation
according to human evaluation. Second, in semantic alignment, e.g. semantic
object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and
positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the
corpus and provide evidence that this technique, which we call RECAP, both
reduces the train-inference discrepancy and provides the model with more
information per example, increasing sample efficiency and allowing the model to
better understand the relations between captions and images.
- Abstract(参考訳): テキストから画像への拡散モデルはここ数年で飛躍的な進歩を遂げ、テキストプロンプトから画像の高品質で多様な合成を可能にした。
しかし、最も先進的なモデルでさえ、プロンプトですべての方向を正確に追うのに苦労することが多い。
これらのモデルの大部分は、画像がWebからしばしば来る(イメージ、キャプション)ペアと、キャプションがHTML代替テキストであるデータセットに基づいてトレーニングされている。
注目すべき例として、安定拡散やその他のモデルで使用されるLAIONデータセットがある。
本研究は,これらのキャプションが品質の低い場合が多いことを観察し,テキストプロンプトにおけるニュアンスド・セマンティクスを理解する能力に大きな影響を与えることを論じる。
コーパスを特殊自動キャプションモデルにリラベリングし,再コンパイルされたデータセット上でテキストから画像へのモデルをトレーニングすることにより,そのモデルがボード全体に実質的に有益であることを示す。
例えば、FID 14.84対17.87のベースライン、そして、人間の評価による忠実な画像生成の64.3%の改善である。
次に意味的アライメント(意味対象の精度84.34対78.90)、アライメントエラー 1.32対1.44、位置アライメント 62.42対57.60。
コーパスをリラベルする様々な方法を分析し、この手法がリカプションと呼ばれるもので、列車参照の不一致を低減し、1例あたりのより多くの情報を提供し、サンプル効率を高め、モデルがキャプションと画像の関係をよりよく理解できるようにするという証拠を提供する。
関連論文リスト
- Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Guiding Image Captioning Models Toward More Specific Captions [32.36062034676917]
トレーニングプロセスに最小限の変更を加えることで,より具体的なキャプションを生成することが可能であることを示す。
本研究では, 自動回帰キャプションモデルに対して, キャプション上の条件分布と非条件分布の両方を微調整することで, 分類器レスガイダンスを実装した。
論文 参考訳(メタデータ) (2023-07-31T14:00:12Z) - RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models [36.19590638188108]
我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。
具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。
提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
論文 参考訳(メタデータ) (2023-04-21T03:45:59Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。