論文の概要: The Five-Dollar Model: Generating Game Maps and Sprites from Sentence
Embeddings
- arxiv url: http://arxiv.org/abs/2308.04052v1
- Date: Tue, 8 Aug 2023 05:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:53:10.064154
- Title: The Five-Dollar Model: Generating Game Maps and Sprites from Sentence
Embeddings
- Title(参考訳): 5ドルモデル:文の埋め込みからゲームマップとスプライトを生成する
- Authors: Timothy Merino, Roman Negri, Dipika Rajesh, M Charity, Julian Togelius
- Abstract要約: 5ドルモデルは、符号化されたテキストプロンプトから低次元画像を生成する軽量なテキスト画像生成アーキテクチャである。
このモデルを,ピクセルアートゲームマップ,ゲームスプライト画像,ダウンスケール絵文字画像の3つの小さなデータセットに適用する。
CLIP VIT-B/32モデルにより生成されたテキスト画像ペア間のコサイン類似度スコアを用いて,本モデルの性能を評価する。
- 参考スコア(独自算出の注目度): 3.620115940532283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The five-dollar model is a lightweight text-to-image generative architecture
that generates low dimensional images from an encoded text prompt. This model
can successfully generate accurate and aesthetically pleasing content in low
dimensional domains, with limited amounts of training data. Despite the small
size of both the model and datasets, the generated images are still able to
maintain the encoded semantic meaning of the textual prompt. We apply this
model to three small datasets: pixel art video game maps, video game sprite
images, and down-scaled emoji images and apply novel augmentation strategies to
improve the performance of our model on these limited datasets. We evaluate our
models performance using cosine similarity score between text-image pairs
generated by the CLIP VIT-B/32 model.
- Abstract(参考訳): 5ドルモデルは、符号化されたテキストプロンプトから低次元画像を生成する軽量なテキスト画像生成アーキテクチャである。
このモデルは,低次元領域において,限られたトレーニングデータを用いて,正確かつ美的なコンテンツを生成することができる。
モデルとデータセットの両方の小さなサイズにもかかわらず、生成された画像は、テキストプロンプトのエンコードされた意味を維持できる。
このモデルを,画素アートゲームマップ,ビデオゲームスプライト画像,ダウンスケール絵文字画像の3つの小さなデータセットに適用し,これらの限られたデータセット上でのモデルの性能向上のために,新たな拡張戦略を適用した。
CLIP VIT-B/32モデルにより生成されたテキスト画像ペア間のコサイン類似度スコアを用いて,本モデルの性能を評価する。
関連論文リスト
- CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model [2.9849290402462927]
トレーニング済みのCLIPモデルを利用して,マルチモーダルなテキスト画像表現と強力な画像生成機能を実現するCLIP-VQDiffusionを提案する。
筆者らのモデルでは,従来の最先端手法を4.4%向上させ,テキストが分布内外であっても,非常にリアルな画像を生成することができた。
論文 参考訳(メタデータ) (2024-03-22T04:34:59Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Learning Generative Models of Textured 3D Meshes from Real-World Images [26.353307246909417]
このようなアノテーションを使わずに,テクスチャ付きトライアングルメッシュを生成するganフレームワークを提案する。
我々のアプローチのパフォーマンスは、基礎となるキーポイントに依存する以前の作業と同等であることを示します。
論文 参考訳(メタデータ) (2021-03-29T14:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。