論文の概要: X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
- arxiv url: http://arxiv.org/abs/2507.22058v1
- Date: Tue, 29 Jul 2025 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.850081
- Title: X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
- Title(参考訳): X-Omni:強化学習は、離散的な自己回帰画像生成モデルを再び素晴らしいものにする
- Authors: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang,
- Abstract要約: 我々は,セマンティック・イメージ・トークンーザ,言語と画像の両方に対する統一自己回帰モデル,X-Omniと呼ばれる画像生成のためのオフライン拡散デコーダを開発する。
X-Omniは、7B言語モデルを用いて画像生成タスクにおける最先端のパフォーマンスを達成し、高い美的品質の画像を生成できると同時に、指示に従って長いテキストを描画する強力な能力を示す。
- 参考スコア(独自算出の注目度): 45.74833463136701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous efforts have been made to extend the ``next token prediction'' paradigm to visual contents, aiming to create a unified approach for both image generation and understanding. Nevertheless, attempts to generate images through autoregressive modeling with discrete tokens have been plagued by issues such as low visual fidelity, distorted outputs, and failure to adhere to complex instructions when rendering intricate details. These shortcomings are likely attributed to cumulative errors during autoregressive inference or information loss incurred during the discretization process. Probably due to this challenge, recent research has increasingly shifted toward jointly training image generation with diffusion objectives and language generation with autoregressive objectives, moving away from unified modeling approaches. In this work, we demonstrate that reinforcement learning can effectively mitigate artifacts and largely enhance the generation quality of a discrete autoregressive modeling method, thereby enabling seamless integration of image and language generation. Our framework comprises a semantic image tokenizer, a unified autoregressive model for both language and images, and an offline diffusion decoder for image generation, termed X-Omni. X-Omni achieves state-of-the-art performance in image generation tasks using a 7B language model, producing images with high aesthetic quality while exhibiting strong capabilities in following instructions and rendering long texts.
- Abstract(参考訳): 画像生成と理解の両面において統一的なアプローチを構築することを目的として,'next token prediction'のパラダイムを視覚コンテンツに拡張する取り組みが数多く行われている。
それでも、離散トークンによる自己回帰モデリングによる画像生成の試みは、視覚的忠実度の低い、歪んだ出力、複雑な詳細を描画する際に複雑な命令に従わないといった問題で悩まされている。
これらの欠点は、自己回帰推論中の累積誤差や、離散化過程中に生じた情報損失によるものと考えられる。
この課題により、近年の研究では、拡散目標による画像生成と自己回帰目標による言語生成を共同で訓練し、統一的なモデリングアプローチから遠ざかる傾向が強まっている。
本研究では、強化学習が成果物を効果的に軽減し、離散自己回帰モデリング手法の生成品質を大幅に向上し、画像と言語生成のシームレスな統合を可能にすることを実証する。
本フレームワークは,セマンティック・イメージ・トークンーザと,言語と画像の両方を対象とした統合自己回帰モデルと,X-Omniと呼ばれる画像生成のためのオフライン拡散デコーダとから構成される。
X-Omniは、7B言語モデルを用いて画像生成タスクにおける最先端のパフォーマンスを達成し、高い美的品質の画像を生成できると同時に、指示に従って長いテキストを描画する強力な能力を示す。
関連論文リスト
- Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。