論文の概要: Amazing Combinatorial Creation: Acceptable Swap-Sampling for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2310.01819v1
- Date: Tue, 3 Oct 2023 06:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 17:24:55.748467
- Title: Amazing Combinatorial Creation: Acceptable Swap-Sampling for
Text-to-Image Generation
- Title(参考訳): テキストから画像を生成するためのスワップサンプリング
- Authors: Jun Li, Zedong Zhang, Jian Yang
- Abstract要約: 本研究では,新鮮さと驚きを示すオブジェクト画像を生成するために,許容スワップサンプリングと呼ばれる手法を開発した。
以上の結果から,本手法はStable-Diffusion2, DALLE2, ERNIE-ViLG2, Bingなどの最近の手法よりも優れていることが示された。
サンプリングプロセス中、トレーニングや人間の好みのないアプローチは、人間のデータセットを使用してトレーニングされたPickScoreやHPSv2に匹敵する。
- 参考スコア(独自算出の注目度): 17.895095340600935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring a machine learning system to generate meaningful combinatorial
object images from multiple textual descriptions, emulating human creativity,
is a significant challenge as humans are able to construct amazing
combinatorial objects, but machines strive to emulate data distribution. In
this paper, we develop a straightforward yet highly effective technique called
acceptable swap-sampling to generate a combinatorial object image that exhibits
novelty and surprise, utilizing text concepts of different objects. Initially,
we propose a swapping mechanism that constructs a novel embedding by exchanging
column vectors of two text embeddings for generating a new combinatorial image
through a cutting-edge diffusion model. Furthermore, we design an acceptable
region by managing suitable CLIP distances between the new image and the
original concept generations, increasing the likelihood of accepting the new
image with a high-quality combination. This region allows us to efficiently
sample a small subset from a new image pool generated by using randomly
exchanging column vectors. Lastly, we employ a segmentation method to compare
CLIP distances among the segmented components, ultimately selecting the most
promising object image from the sampled subset. Our experiments focus on text
pairs of objects from ImageNet, and our results demonstrate that our approach
outperforms recent methods such as Stable-Diffusion2, DALLE2, ERNIE-ViLG2 and
Bing in generating novel and surprising object images, even when the associated
concepts appear to be implausible, such as lionfish-abacus. Furthermore, during
the sampling process, our approach without training and human preference is
also comparable to PickScore and HPSv2 trained using human preference datasets.
- Abstract(参考訳): 人間の創造性をエミュレートする、複数のテキスト記述から意味のある組合せオブジェクト画像を生成する機械学習システムを探索することは、人間が驚くべき組合せオブジェクトを構築することができるため、重要な課題である。
本稿では,異なるオブジェクトのテキスト概念を利用して,新奇さと驚きを示す複合オブジェクト画像を生成する,許容スワップサンプリングという,単純かつ高効率な手法を開発する。
まず, 2 つのテキスト埋め込みのコラムベクトルを交換し, 最先端拡散モデルを用いて新たな組合せ画像を生成する, 新たな埋め込み機構を提案する。
さらに、新しい画像とオリジナルコンセプト世代間の適切なCLIP距離を管理し、高品質な組み合わせで新しい画像を受け入れる可能性を高めることにより、許容可能な領域を設計する。
この領域は、カラムベクトルをランダムに交換することで生成された新しいイメージプールから、小さなサブセットを効率的にサンプリングできる。
最後に、セグメント化手法を用いて、セグメント化コンポーネント間のCLIP距離を比較し、最終的にサンプリングされたサブセットから最も有望なオブジェクト画像を選択する。
実験では,imagenetのテキストペアに着目し,stable-diffusion2,dalle2,ernie-vilg2,bingといった最近の手法よりも,lionfish-abacusのような関連概念が目立たないような場合であっても,新規で驚くべきオブジェクト画像を生成する方法が優れていることを示す。
さらに, サンプリング過程において, トレーニングや人選好のないアプローチは, 人間の選好データセットを用いて訓練したPickScoreやHPSv2と同等である。
関連論文リスト
- DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。
このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。
提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文 参考訳(メタデータ) (2023-12-18T00:05:28Z) - Learning Implicit Entity-object Relations by Bidirectional Generative
Alignment for Multimodal NER [43.425998295991135]
本稿では,BGA-MNERという双方向生成アライメント手法を提案する。
提案手法は,推論中に画像入力を伴わずに最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-08-03T10:37:20Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer [8.069590683507997]
マルチモーダル画像テキスト表現のためのベクトル量子化手法MXQ-VAEを提案する。
MXQ-VAEはペア画像とテキストを入力として受け入れ、共同量子化表現空間を学習する。
自己回帰生成モデルを用いて、共同画像-テキスト表現をモデル化し、無条件画像-テキストペア生成を行う。
論文 参考訳(メタデータ) (2022-04-15T16:29:55Z) - A Well-Composed Text is Half Done! Composition Sampling for Diverse
Conditional Generation [79.98319703471596]
高品質の条件付き生成のための多種多様な出力を生成するための簡易で効果的な合成サンプリング法であるコンポジションサンプリングを提案する。
これは最近提案された計画ベースのニューラルジェネレーションモデルに基づいて構築され、まず最初に出力の合成を作成し、それと入力を条件付けして生成するように訓練される。
論文 参考訳(メタデータ) (2022-03-28T21:24:03Z) - One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。
対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T13:03:06Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。