論文の概要: aMUSEd: An Open MUSE Reproduction
- arxiv url: http://arxiv.org/abs/2401.01808v1
- Date: Wed, 3 Jan 2024 16:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:48:13.535607
- Title: aMUSEd: An Open MUSE Reproduction
- Title(参考訳): aMUSEd:オープンなMUSE再現
- Authors: Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
- Abstract要約: MUSEに基づくテキスト・ツー・イメージ生成のためのオープンソース軽量マスク画像モデル(MIM)を提案する。
我々はMIMがテキスト・ツー・イメージ生成の主流である潜時拡散に比べて探索不足であると考えている。
256x256と512x512の解像度で画像を直接生成する2つのモデルのチェックポイントをリリースする。
- 参考スコア(独自算出の注目度): 13.638017776454435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present aMUSEd, an open-source, lightweight masked image model (MIM) for
text-to-image generation based on MUSE. With 10 percent of MUSE's parameters,
aMUSEd is focused on fast image generation. We believe MIM is under-explored
compared to latent diffusion, the prevailing approach for text-to-image
generation. Compared to latent diffusion, MIM requires fewer inference steps
and is more interpretable. Additionally, MIM can be fine-tuned to learn
additional styles with only a single image. We hope to encourage further
exploration of MIM by demonstrating its effectiveness on large-scale
text-to-image generation and releasing reproducible training code. We also
release checkpoints for two models which directly produce images at 256x256 and
512x512 resolutions.
- Abstract(参考訳): MUSEをベースとしたテキスト・ツー・イメージ生成のための,オープンソースの軽量マスク画像モデルであるaMUSEdを提案する。
MUSEのパラメータの10%で、aMUSEdは高速な画像生成にフォーカスしている。
我々はMIMがテキスト・ツー・イメージ生成の主流である潜時拡散に比べて探索不足であると考えている。
潜伏拡散と比較して、MIMは推論ステップを少なくし、より解釈可能である。
さらに、MIMは1つの画像だけで追加のスタイルを学ぶことができる。
大規模なテキスト・画像生成におけるMIMの有効性を実証し、再現可能なトレーニングコードをリリースすることによって、MIMのさらなる探索を奨励したい。
また、256x256と512x512の解像度で画像を直接生成する2つのモデルのチェックポイントをリリースする。
関連論文リスト
- MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions [64.89284104414865]
オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。
MagicLensは、重要な新しい洞察に基づいて構築されている。同じWebページで自然に起こるイメージペアは、幅広い暗黙の関係を含んでいる。
従来のSOTA(State-of-the-art)手法よりも、様々な画像検索タスクの8つのベンチマークで同等またはより良い結果が得られる。
論文 参考訳(メタデータ) (2024-03-28T17:59:20Z) - You Only Sample Once: Taming One-Step Text-To-Image Synthesis by Self-Cooperative Diffusion GANs [7.678629642794006]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のために設計された、新しい生成モデルである。
提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
特に、512の解像度で訓練された1ステップで画像を生成できる最初の拡散変換器を提供する。
論文 参考訳(メタデータ) (2024-03-19T17:34:27Z) - MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained
Representations [18.11603998507362]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。
我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
ImageNet-1Kの1ショット分類では、MIM-Refinerは64.2%の新しい最先端を設定しており、2000倍以上のデータでトレーニングされたより大きなモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T16:46:16Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Muse: Text-To-Image Generation via Masked Generative Transformers [81.23620322077385]
Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。
Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。
Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
論文 参考訳(メタデータ) (2023-01-02T14:43:38Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。