Fugu-MT 論文翻訳(概要): aMUSEd: An Open MUSE Reproduction

論文の概要: aMUSEd: An Open MUSE Reproduction

arxiv url: http://arxiv.org/abs/2401.01808v1
Date: Wed, 3 Jan 2024 16:10:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-04 13:48:13.535607
Title: aMUSEd: An Open MUSE Reproduction
Title（参考訳）: aMUSEd:オープンなMUSE再現
Authors: Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
Abstract要約: MUSEに基づくテキスト・ツー・イメージ生成のためのオープンソース軽量マスク画像モデル(MIM)を提案する。我々はMIMがテキスト・ツー・イメージ生成の主流である潜時拡散に比べて探索不足であると考えている。 256x256と512x512の解像度で画像を直接生成する2つのモデルのチェックポイントをリリースする。
参考スコア（独自算出の注目度）: 13.638017776454435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present aMUSEd, an open-source, lightweight masked image model (MIM) for text-to-image generation based on MUSE. With 10 percent of MUSE's parameters, aMUSEd is focused on fast image generation. We believe MIM is under-explored compared to latent diffusion, the prevailing approach for text-to-image generation. Compared to latent diffusion, MIM requires fewer inference steps and is more interpretable. Additionally, MIM can be fine-tuned to learn additional styles with only a single image. We hope to encourage further exploration of MIM by demonstrating its effectiveness on large-scale text-to-image generation and releasing reproducible training code. We also release checkpoints for two models which directly produce images at 256x256 and 512x512 resolutions.
Abstract（参考訳）: MUSEをベースとしたテキスト・ツー・イメージ生成のための,オープンソースの軽量マスク画像モデルであるaMUSEdを提案する。 MUSEのパラメータの10%で、aMUSEdは高速な画像生成にフォーカスしている。我々はMIMがテキスト・ツー・イメージ生成の主流である潜時拡散に比べて探索不足であると考えている。潜伏拡散と比較して、MIMは推論ステップを少なくし、より解釈可能である。さらに、MIMは1つの画像だけで追加のスタイルを学ぶことができる。大規模なテキスト・画像生成におけるMIMの有効性を実証し、再現可能なトレーニングコードをリリースすることによって、MIMのさらなる探索を奨励したい。また、256x256と512x512の解像度で画像を直接生成する2つのモデルのチェックポイントをリリースする。

関連論文リスト

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文参考訳（メタデータ） (2024-03-01T03:25:58Z)
On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文参考訳（メタデータ） (2024-02-02T12:39:49Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.564722905991776]
我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。 Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
論文参考訳（メタデータ） (2023-04-25T03:01:37Z)
PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。本稿では,画素再構成の観点からMIMの基本解析を行う。我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文参考訳（メタデータ） (2023-03-04T13:38:51Z)
Muse: Text-To-Image Generation via Masked Generative Transformers [81.23620322077385]
Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
論文参考訳（メタデータ） (2023-01-02T14:43:38Z)
Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN [38.87225202482656]
自己教師型事前学習手法であるマスク付き画像モデリングは、ビジョントランスフォーマーを用いた多くの下流視覚タスクで驚くべき成功を収めた。本稿では,トランスフォーマーとCNNの両方に統一的に対応可能なアーキテクチャ非依存型マスケ画像モデリングフレームワーク (A$2$MIM) を提案する。
論文参考訳（メタデータ） (2022-05-27T12:42:02Z)
Beyond Masking: Demystifying Token-Based Pre-Training for Vision Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-03-27T14:23:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。