Fugu-MT 論文翻訳(概要): Text-to-Level Diffusion Models With Various Text Encoders for Super Mario Bros

論文の概要: Text-to-Level Diffusion Models With Various Text Encoders for Super Mario Bros

arxiv url: http://arxiv.org/abs/2507.00184v1
Date: Mon, 30 Jun 2025 18:50:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:58.631694
Title: Text-to-Level Diffusion Models With Various Text Encoders for Super Mario Bros
Title（参考訳）: スーパーマリオブラザー用テキストエンコーダを用いたテキスト-レベル拡散モデル
Authors: Jacob Schrum, Olivia Kilday, Emilio Salas, Bess Hagan, Reid Williams,
Abstract要約: 既存のレベルデータセットに記述キャプションを自動的に割り当てる戦略を提案する。我々は、事前訓練されたテキストエンコーダと、スクラッチから訓練された単純なトランスフォーマーモデルの両方を用いて拡散モデルを訓練する。結果は,非条件拡散モデルと生成逆ネットワークと比較される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research shows how diffusion models can unconditionally generate tile-based game levels, but use of diffusion models for text-to-level generation is underexplored. There are practical considerations for creating a usable model: caption/level pairs are needed, as is a text embedding model, and a way of generating entire playable levels, rather than individual scenes. We present strategies to automatically assign descriptive captions to an existing level dataset, and train diffusion models using both pretrained text encoders and simple transformer models trained from scratch. Captions are automatically assigned to generated levels so that the degree of overlap between input and output captions can be compared. We also assess the diversity and playability of the resulting levels. Results are compared with an unconditional diffusion model and a generative adversarial network, as well as the text-to-level approaches Five-Dollar Model and MarioGPT. Notably, the best diffusion model uses a simple transformer model for text embedding, and takes less time to train than diffusion models employing more complex text encoders, indicating that reliance on larger language models is not necessary. We also present a GUI allowing designers to construct long levels from model-generated scenes.
Abstract（参考訳）: 近年の研究では、拡散モデルがタイルベースのゲームレベルを無条件に生成する方法が示されている。使用可能なモデルを作成するには、テキスト埋め込みモデルと同様にキャプション/レベルペアが必要であり、個々のシーンではなく、プレー可能なレベル全体を生成できる方法である。既存のレベルのデータセットに記述キャプションを自動的に割り当てる戦略を提案し、事前訓練されたテキストエンコーダと単純なトランスフォーマーモデルの両方を用いて拡散モデルを訓練する。キャプションは、入力キャプションと出力キャプションの重複度を比較することができるように、生成されたレベルに自動的に割り当てられる。結果の多様性と遊びやすさも評価した。その結果,非条件拡散モデルと生成逆数ネットワーク,およびテキストからレベルへのアプローチであるFive-Dollar ModelとMarioGPTを比較した。特に、最良の拡散モデルは、テキスト埋め込みに単純なトランスフォーマーモデルを使用し、より複雑なテキストエンコーダを使用する拡散モデルよりも訓練に時間がかかり、より大きな言語モデルへの依存は必要ないことを示す。また、設計者がモデル生成シーンから長いレベルを構築できるGUIも提示する。

関連論文リスト

Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2025-02-06T12:17:35Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文参考訳（メタデータ） (2023-11-28T04:02:40Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文参考訳（メタデータ） (2023-05-09T05:48:38Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文参考訳（メタデータ） (2021-12-20T18:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。