論文の概要: Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
- arxiv url: http://arxiv.org/abs/2503.07334v3
- Date: Sun, 10 Aug 2025 15:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.215455
- Title: Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
- Title(参考訳): 自己回帰表現アライメントによるテキスト・画像生成のための大規模言語モデルの可能性
- Authors: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu,
- Abstract要約: Autoregressive Representation Alignment(ARRA)は,自己回帰型LLMにおけるグローバルコヒーレントなテキスト・ツー・イメージ生成をアーキテクチャ変更なしに解放する,新たなトレーニングフレームワークである。
ARRAは、LLMの隠れ状態と、グローバルな視覚的アライメントロスとハイブリッドトークン [オブジェクトオブジェクト]を介して、外部視覚基盤モデルからの視覚的表現とを一致させる
大規模な実験はARRAのプラグアンドプレイの汎用性を検証する。
- 参考スコア(独自算出の注目度): 32.11442595627763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Autoregressive Representation Alignment (ARRA), a new training framework that unlocks global-coherent text-to-image generation in autoregressive LLMs without architectural modifications. Different from prior works that require complex architectural redesigns, ARRA aligns LLM's hidden states with visual representations from external visual foundational models via a global visual alignment loss and a hybrid token, [object Object]. This token enforces dual constraints: local next-token prediction and global semantic distillation, enabling LLMs to implicitly learn spatial and contextual coherence while retaining their original autoregressive paradigm. Extensive experiments validate ARRA's plug-and-play versatility. When training T2I LLMs from scratch, ARRA reduces FID by 16.6% (ImageNet), 12.0% (LAION-COCO) for autoregressive LLMs like LlamaGen, without modifying original architecture and inference mechanism. For training from text-generation-only LLMs, ARRA reduces FID by 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet) for advanced LLMs like Chameleon. For domain adaptation, ARRA aligns general-purpose LLMs with specialized models (e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on medical imaging (MIMIC-CXR). These results demonstrate that training objective redesign, rather than architectural modifications, can resolve cross-modal global coherence challenges. ARRA offers a complementary paradigm for advancing autoregressive models. The code is available at https://github.com/xiexing0916/ARRA.
- Abstract(参考訳): 本稿では,自己回帰表現アライメント(ARRA, Autoregressive Representation Alignment)を提案する。
複雑なアーキテクチャの再設計を必要とする以前の作業とは異なり、ARRAはLLMの隠された状態と、グローバルな視覚的アライメント損失とハイブリッドトークン(オブジェクトオブジェクト)を通して、外部の視覚的基盤モデルからの視覚的表現を整合させる。
このトークンは、局所的な次トーケン予測とグローバルな意味蒸留という2つの制約を課し、LLMは独自の自己回帰パラダイムを維持しながら、空間的および文脈的コヒーレンスを暗黙的に学習することができる。
大規模な実験はARRAのプラグアンドプレイの汎用性を検証する。
T2I LLMをスクラッチからトレーニングする場合、ARRAはオリジナルのアーキテクチャや推論機構を変更することなく、FIDを16.6%削減し、LlamaGenのような自己回帰型LLMに対して12.0%(LAION-COCO)とした。
テキスト生成のみのLLMからトレーニングするために、ARRAはChameleonのような高度なLLM向けのFIDを25.5%(MIMIC-CXR)、8.8%(DeepEyeNet)削減する。
ドメイン適応のために、ARRAは汎用LLMを特殊なモデル(例えば、BioMedCLIP)と整合させ、18.6%のFID削減を実現し、医療画像(MIMIC-CXR)を直接微調整する。
これらの結果は、アーキテクチャの変更ではなく、トレーニング目的の再設計が、国際的相互整合性の課題を解決できることを実証している。
ARRAは自己回帰モデルを進めるための補完的なパラダイムを提供する。
コードはhttps://github.com/xiexing0916/ARRAで公開されている。
関連論文リスト
- AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。
意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。
提案手法は画像生成のパーフェマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-04T06:36:00Z) - SAFT: Structure-Aware Fine-Tuning of LLMs for AMR-to-Text Generation [50.277959544420455]
SAFTは、事前訓練された言語モデルにグラフトポロジーを注入する構造対応の微調整手法である。
変換されたAMRの磁気ラプラシアンから方向感応的な位置エンコーディングを計算する。
SAFTはAMR 3.0に新しい最先端を設定、ベースラインを3.5BLEU改善した。
論文 参考訳(メタデータ) (2025-07-15T18:12:57Z) - Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots [103.48424042986271]
本稿では,いくつかの低解像度画像トークンから一般的な高密度画像トークンへの階層構造をモデル化する,新しい自己回帰設計を提案する。
階層型自己回帰モデル(Hi-MAR)を提案する。
論文 参考訳(メタデータ) (2025-05-26T17:59:07Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing [7.278180096265984]
Nexus-Genは,多モーダル大言語モデルの言語推論能力を,拡散モデルの画像合成能力と相乗化する統一モデルである。
本稿では, 連続埋め込みではなく, 位置埋め込み型特殊トークンで入力シーケンスをプリフィルする自己回帰方式を提案する。
論文 参考訳(メタデータ) (2025-04-30T06:30:48Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning [24.981279071712173]
本稿では,LVLMを表現タスクと生成タスクの両方に拡張する,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。
提案手法は,従来のタスクを統一し,マルチモーダル検索とマルチモーダル生成ベンチマークの両面で最先端の結果を得る。
論文 参考訳(メタデータ) (2025-03-25T17:57:17Z) - RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning [29.909743116379936]
第1回リアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。
RealRAGは、生成モデルの知識ギャップを克服するために、現実世界の画像の学習と検索によって、細粒で目に見えない新しいオブジェクトを生成する。
本フレームワークは, 生成モデルに対するきめ細かな視覚的知識を統合し, 歪み問題に対処し, オブジェクト生成における現実性を改善する。
論文 参考訳(メタデータ) (2025-02-02T16:41:54Z) - Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは改良された自己回帰型ビジュアルジェネレーション手法である。
バランスの取れたk平均クラスタリングアルゴリズムを用いたCodebook Rearrangement戦略を提案する。
また,クラスタ指向のクロスエントロピーロスを提案し,トークンの所在するクラスタを正確に予測する。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - REO-VLM: Transforming VLM to Meet Regression Challenges in Earth Observation [58.91579272882073]
本稿では,地球観測領域に特有な回帰・生成タスクを統合するために,textbfREO-Instructと呼ばれる新しいベンチマークデータセットを提案する。
我々は,回帰機能を従来の生成関数とシームレスに統合する基盤モデルであるtextbfREO-VLM を開発した。
論文 参考訳(メタデータ) (2024-12-21T11:17:15Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。
画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。
従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文 参考訳(メタデータ) (2024-12-09T17:11:50Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。