論文の概要: JetFormer: An Autoregressive Generative Model of Raw Images and Text
- arxiv url: http://arxiv.org/abs/2411.19722v1
- Date: Fri, 29 Nov 2024 14:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:49.917849
- Title: JetFormer: An Autoregressive Generative Model of Raw Images and Text
- Title(参考訳): JetFormer: 生画像とテキストの自動回帰生成モデル
- Authors: Michael Tschannen, André Susano Pinto, Alexander Kolesnikov,
- Abstract要約: 本稿では,生データの可能性を直接最大化するために,自動回帰デコーダのみの変換器であるJetFormerを提案する。
我々は正規化フローモデルを利用して,自己回帰型マルチモーダル変換器で共同で訓練したソフトトーン画像表現を得る。
JetFormerは、最近のVQ-VAEおよびVAEベースのベースラインと競合するテキスト・画像生成品質を実現する。
- 参考スコア(独自算出の注目度): 62.2573739835562
- License:
- Abstract: Removing modeling constraints and unifying architectures across domains has been a key driver of the recent progress in training large multimodal models. However, most of these models still rely on many separately trained components such as modality-specific encoders and decoders. In this work, we further streamline joint generative modeling of images and text. We propose an autoregressive decoder-only transformer - JetFormer - which is trained to directly maximize the likelihood of raw data, without relying on any separately pretrained components, and can understand and generate both text and images. Specifically, we leverage a normalizing flow model to obtain a soft-token image representation that is jointly trained with an autoregressive multimodal transformer. The normalizing flow model serves as both an image encoder for perception tasks and an image decoder for image generation tasks during inference. JetFormer achieves text-to-image generation quality competitive with recent VQ-VAE- and VAE-based baselines. These baselines rely on pretrained image autoencoders, which are trained with a complex mixture of losses, including perceptual ones. At the same time, JetFormer demonstrates robust image understanding capabilities. To the best of our knowledge, JetFormer is the first model that is capable of generating high-fidelity images and producing strong log-likelihood bounds.
- Abstract(参考訳): モデリングの制約を取り除き、ドメインをまたいだアーキテクチャを統一することは、大規模なマルチモーダルモデルのトレーニングにおける最近の進歩の鍵となった。
しかしながら、これらのモデルの多くは、モダリティ特化エンコーダやデコーダなど、独立に訓練された多くのコンポーネントに依存している。
本研究では,画像とテキストの結合生成モデリングをさらに効率化する。
本稿では,自動回帰デコーダのみのトランスフォーマーであるJetFormerを提案する。このトランスフォーマーは,個別に事前訓練されたコンポーネントを使わずに,生データの可能性を直接最大化し,テキストと画像の両方を理解・生成することができる。
具体的には、正規化フローモデルを利用して、自己回帰型マルチモーダル変換器で共同で訓練されたソフトトーン画像表現を得る。
正規化フローモデルは、知覚タスクのイメージエンコーダと、推論中の画像生成タスクのイメージデコーダの両方として機能する。
JetFormerは、最近のVQ-VAEおよびVAEベースのベースラインと競合するテキスト・画像生成品質を実現する。
これらのベースラインは、事前訓練されたイメージオートエンコーダに依存しており、知覚的なものを含む複雑な損失の混合で訓練されている。
同時に、JetFormerは、堅牢なイメージ理解機能を示している。
我々の知る限り、JetFormerは、高忠実度画像を生成し、ログのような強い境界を生成することができる最初のモデルです。
関連論文リスト
- WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - A Method for Training-free Person Image Picture Generation [4.043367784553845]
本稿では,キャラクタ画像の特徴モデルを提案する。
これにより、ユーザーは文字の画像を簡単に提供して、生成された画像中の文字の画像と期待値とを一致させることで、プロセスを利用することができる。
提案モデルは, モデルを変更したり, 継手モデルとして使用したりすることなく, 安定拡散生成プロセスに簡便に組み込むことができる。
論文 参考訳(メタデータ) (2023-05-16T21:46:28Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。