論文の概要: Unlocking Aha Moments via Reinforcement Learning: Advancing Collaborative Visual Comprehension and Generation
- arxiv url: http://arxiv.org/abs/2506.01480v1
- Date: Mon, 02 Jun 2025 09:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.175937
- Title: Unlocking Aha Moments via Reinforcement Learning: Advancing Collaborative Visual Comprehension and Generation
- Title(参考訳): 強化学習によるAhaモーメントのアンロック:協調的視覚理解と生成の促進
- Authors: Kaihang Pan, Yang Wu, Wendong Bu, Kai Shen, Juncheng Li, Yingting Wang, Yunfei Li, Siliang Tang, Jun Xiao, Fei Wu, Hang Zhao, Yueting Zhuang,
- Abstract要約: 視覚的理解と生成の協調的共進化を可能にすることを提案する。
教師付き微調整は、真のCoTを生成する基礎的な能力を持つMLLMを指導する。
画像生成におけるAhaモーメントを解き、テキスト・ツー・イメージタスクから統合画像生成へMLLMを前進させる。
- 参考スコア(独自算出の注目度): 85.22602924467603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent endeavors in Multimodal Large Language Models (MLLMs) aim to unify visual comprehension and generation. However, these two capabilities remain largely independent, as if they are two separate functions encapsulated within the same model. Consequently, visual comprehension does not enhance visual generation, and the reasoning mechanisms of LLMs have not been fully integrated to revolutionize image generation. In this paper, we propose to enable the collaborative co-evolution of visual comprehension and generation, advancing image generation into an iterative introspective process. We introduce a two-stage training approach: supervised fine-tuning teaches the MLLM with the foundational ability to generate genuine CoT for visual generation, while reinforcement learning activates its full potential via an exploration-exploitation trade-off. Ultimately, we unlock the Aha moment in visual generation, advancing MLLMs from text-to-image tasks to unified image generation. Extensive experiments demonstrate that our model not only excels in text-to-image generation and image editing, but also functions as a superior image semantic evaluator with enhanced visual comprehension capabilities. Project Page: https://janus-pro-r1.github.io.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の取り組みは、視覚的理解と生成を統一することを目的としている。
しかし、これらの2つの機能は、まるで同じモデル内にカプセル化された2つの別々の関数であるかのように、ほとんど独立に保たれている。
その結果、視覚的理解は視覚生成を促進せず、LLMの推論機構は画像生成に革命を起こすために完全に統合されていない。
本稿では,視覚的理解と生成の協調的共進化を実現し,画像生成を反復的イントロスペクティブなプロセスへと進めることを提案する。
教師付き微調整は、視覚生成のための真のCoTを生成する基礎的な能力を持つMLLMを指導し、強化学習は探索・探索トレードオフを通じてその潜在能力を活性化する。
最終的に、私たちはAhaモーメントを視覚的に解放し、MLLMをテキストから画像へのタスクから統合された画像生成へと前進させます。
広汎な実験により、我々のモデルはテキスト・画像生成や画像編集に優れるだけでなく、視覚的理解能力を高めた優れた画像意味評価器としても機能することが示された。
プロジェクトページ:https://janus-pro-r1.github.io
関連論文リスト
- Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z) - MetaMorph: Multimodal Understanding and Generation via Instruction Tuning [57.35160715164359]
視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。
VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。
MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
論文 参考訳(メタデータ) (2024-12-18T18:58:50Z) - X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。
X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。
テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文 参考訳(メタデータ) (2024-12-02T18:59:26Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。