論文の概要: Amazing Combinatorial Creation: Acceptable Swap-Sampling for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2310.01819v2
- Date: Fri, 20 Oct 2023 09:23:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 02:53:00.846558
- Title: Amazing Combinatorial Creation: Acceptable Swap-Sampling for
Text-to-Image Generation
- Title(参考訳): テキストから画像を生成するためのスワップサンプリング
- Authors: Jun Li, Zedong Zhang, Jian Yang
- Abstract要約: 本研究では,新鮮さと驚きを示すオブジェクト画像を生成するために,許容スワップサンプリングと呼ばれる手法を開発した。
提案手法は, 安定拡散, DALLE2, ERNIE-ViLG2, Bingなどの最近の手法より, 新規で驚くべき物体画像の生成に優れることを示す。
- 参考スコア(独自算出の注目度): 17.895095340600935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring a machine learning system to generate meaningful combinatorial
object images from multiple textual descriptions, emulating human creativity,
is a significant challenge as humans are able to construct amazing
combinatorial objects, but machines strive to emulate data distribution. In
this paper, we develop a straight-forward yet highly effective technique called
acceptable swap-sampling to generate a combinatorial object image that exhibits
novelty and surprise, utilizing text concepts of different objects. Initially,
we propose a swapping mechanism that constructs a novel embedding by exchanging
column vectors of two text embeddings for generating a new combinatorial image
through a cutting-edge diffusion model. Furthermore, we design an acceptable
region by managing suitable CLIP distances between the new image and the
original concept generations, increasing the likelihood of accepting the new
image with a high-quality combination. This region allows us to efficiently
sample a small subset from a new image pool generated by using randomly
exchanging column vectors. Lastly, we employ a segmentation method to compare
CLIP distances among the segmented components, ultimately selecting the most
promising object image from the sampled subset. Our experiments focus on text
pairs of objects from ImageNet, and our results demonstrate that our approach
outperforms recent methods such as Stable-Diffusion2, DALLE2, ERNIE-ViLG2 and
Bing in generating novel and surprising object images, even when the associated
concepts appear to be implausible, such as lionfish-abacus. Moreover, during
the sampling process, our approach without training and human preference is
also comparable to PickScore and HPSv2 trained using human preference datasets.
- Abstract(参考訳): 人間の創造性をエミュレートする、複数のテキスト記述から意味のある組合せオブジェクト画像を生成する機械学習システムを探索することは、人間が驚くべき組合せオブジェクトを構築することができるため、重要な課題である。
本稿では,異なるオブジェクトのテキスト概念を利用して,新奇さと驚きを示す合成対象画像を生成する,許容スワップサンプリングという,真正面かつ高効率な手法を開発する。
まず, 2 つのテキスト埋め込みのコラムベクトルを交換し, 最先端拡散モデルを用いて新たな組合せ画像を生成する, 新たな埋め込み機構を提案する。
さらに、新しい画像とオリジナルコンセプト世代間の適切なCLIP距離を管理し、高品質な組み合わせで新しい画像を受け入れる可能性を高めることにより、許容可能な領域を設計する。
この領域は、カラムベクトルをランダムに交換することで生成された新しいイメージプールから、小さなサブセットを効率的にサンプリングできる。
最後に、セグメント化手法を用いて、セグメント化コンポーネント間のCLIP距離を比較し、最終的にサンプリングされたサブセットから最も有望なオブジェクト画像を選択する。
実験では,imagenetのテキストペアに着目し,stable-diffusion2,dalle2,ernie-vilg2,bingといった最近の手法よりも,lionfish-abacusのような関連概念が目立たないような場合であっても,新規で驚くべきオブジェクト画像を生成する方法が優れていることを示す。
さらに, サンプリング過程において, トレーニングや人選好のないアプローチは, 人間の選好データセットを用いて訓練したPickScoreやHPSv2と同等である。
関連論文リスト
- Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Simultaneous Multiple-Prompt Guided Generation Using Differentiable
Optimal Transport [41.265684813975625]
テキストキューから画像を生成することによって操作するテキスト・ツー・イメージ合成アプローチは、一点を論じる。
本稿では,最適輸送(OT)文献に見られるマッチング手法を用いて,多様なプロンプトを忠実に反映できる画像を提案する。
論文 参考訳(メタデータ) (2022-04-18T03:46:06Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Generating Object Stamps [47.20601520671103]
GANアーキテクチャを用いて,様々な前景オブジェクトを生成し,背景画像に合成するアルゴリズムを提案する。
挑戦的なCOCOデータセットの結果,最先端のオブジェクト挿入手法と比較して,全体的な品質と多様性が向上した。
論文 参考訳(メタデータ) (2020-01-01T14:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。