論文の概要: Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
- arxiv url: http://arxiv.org/abs/2503.07334v1
- Date: Mon, 10 Mar 2025 13:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:45.020086
- Title: Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
- Title(参考訳): 自己回帰表現アライメントによるテキスト・画像生成のための大規模言語モデルの可能性
- Authors: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu,
- Abstract要約: 本稿では,自己回帰表現アライメント(ARRA, Autoregressive Representation Alignment)を提案する。
ARRAは、グローバルな視覚的アライメント損失とハイブリットトークンHYB>を介して、外部視覚モデルからの視覚的表現と隠れ状態のアライメントを行う。
コードとモデルがリリースされ、自動回帰画像生成が進められる。
- 参考スコア(独自算出の注目度): 32.11442595627763
- License:
- Abstract: We present Autoregressive Representation Alignment (ARRA), a new training framework that unlocks global-coherent text-to-image generation in autoregressive LLMs without architectural changes. Unlike prior work that requires complex architectural redesigns, ARRA aligns LLM hidden states with visual representations from external visual foundational models via a global visual alignment loss and a hybrid token, <HYBNEXT>. This token enforces dual constraints: local next-token prediction and global semantic distillation, enabling LLMs to implicitly learn spatial and contextual coherence while retaining their original autoregressive paradigm. Extensive experiments validate ARRA's plug-and-play versatility. When training from text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive LLMs like Chameleon and LlamaGen, all without framework modifications. For domain adaption, ARRA aligns general-purpose LLMs with specialized models (e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on medical imaging (MIMIC-CXR). By demonstrating that training objective redesign -- not just architectural innovation -- can resolve cross-modal global coherence challenges, ARRA offers a complementary paradigm for advancing autoregressive models. Code and models will be released to advance autoregressive image generation.
- Abstract(参考訳): 本稿では,自己回帰表現アライメント(ARRA, Autoregressive Representation Alignment)を提案する。
複雑なアーキテクチャの再設計を必要とする以前の作業とは異なり、ARRAはLLM隠蔽状態と、グローバルな視覚的アライメント損失とハイBNEXT>による外部視覚基盤モデルからの視覚的表現を整列する。
このトークンは、局所的な次トーケン予測とグローバルな意味蒸留という2つの制約を課し、LLMは独自の自己回帰パラダイムを維持しながら、空間的および文脈的コヒーレンスを暗黙的に学習することができる。
大規模な実験はARRAのプラグアンドプレイの汎用性を検証する。
テキスト生成のみのLLMやランダム初期化によるトレーニングでは、フレームワークの変更なしに、FIDを25.5%(MIMIC-CXR)、8.8%(DeepEyeNet)、7.5%(ImageNet)削減する。
ドメイン適応のために、ARRAは汎用LLMを特殊なモデル(例えばBioMedCLIP)と整合させ、18.6%のFID削減を実現し、医療画像(MIMIC-CXR)を直接微調整する。
アーキテクチャ革新だけでなく、トレーニング目的の再設計が、国際的コヒーレンス課題の解決を可能にすることを実証することによって、ARRAは自己回帰モデルを進めるための補完的なパラダイムを提供する。
コードとモデルがリリースされ、自動回帰画像生成が進められる。
関連論文リスト
- RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning [29.909743116379936]
第1回リアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。
RealRAGは、生成モデルの知識ギャップを克服するために、現実世界の画像の学習と検索によって、細粒で目に見えない新しいオブジェクトを生成する。
本フレームワークは, 生成モデルに対するきめ細かな視覚的知識を統合し, 歪み問題に対処し, オブジェクト生成における現実性を改善する。
論文 参考訳(メタデータ) (2025-02-02T16:41:54Z) - Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは改良された自己回帰型ビジュアルジェネレーション手法である。
バランスの取れたk平均クラスタリングアルゴリズムを用いたCodebook Rearrangement戦略を提案する。
また,クラスタ指向のクロスエントロピーロスを提案し,トークンの所在するクラスタを正確に予測する。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - REO-VLM: Transforming VLM to Meet Regression Challenges in Earth Observation [58.91579272882073]
本稿では,地球観測領域に特有な回帰・生成タスクを統合するために,textbfREO-Instructと呼ばれる新しいベンチマークデータセットを提案する。
我々は,回帰機能を従来の生成関数とシームレスに統合する基盤モデルであるtextbfREO-VLM を開発した。
論文 参考訳(メタデータ) (2024-12-21T11:17:15Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。
画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。
従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文 参考訳(メタデータ) (2024-12-09T17:11:50Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。