論文の概要: UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.23380v1
- Date: Thu, 29 May 2025 12:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.841725
- Title: UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning
- Title(参考訳): UniRL: 教師付き強化学習による自己改善型マルチモーダルモデル
- Authors: Weijia Mao, Zhenheng Yang, Mike Zheng Shou,
- Abstract要約: マルチモーダルな大規模言語モデルのための自己改善後学習手法UniRLを提案する。
我々のアプローチでは、モデルがプロンプトから画像を生成し、各イテレーションでトレーニングデータとして使用することができる。
我々は,Show-o と Janus の上の UniRL を評価し,Show-o の GenEval スコア0.77 とJanus の 0.65 を達成した。
- 参考スコア(独自算出の注目度): 17.68867710994329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal large language models such as Show-o and Janus have achieved strong performance across both generation and understanding tasks. However, these models typically rely on large-scale datasets and require substantial computation during the pretraining stage. In addition, several post-training methods have been proposed, but they often depend on external data or are limited to task-specific customization. In this work, we introduce UniRL, a self-improving post-training approach. Our approach enables the model to generate images from prompts and use them as training data in each iteration, without relying on any external image data. Moreover, it enables the two tasks to enhance each other: the generated images are used for understanding, and the understanding results are used to supervise generation. We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) to optimize the models. UniRL offers three key advantages: (1) it requires no external image data, as all training samples are generated by the model itself during training; (2) it not only improves individual task performance, but also reduces the imbalance between generation and understanding; and (3) it requires only several additional training steps during the post-training stage. We evaluate UniRL on top of Show-o and Janus, achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and models will be released in https://github.com/showlab/UniRL.
- Abstract(参考訳): Show-oやJanusのような統一マルチモーダルな大規模言語モデルは、生成タスクと理解タスクの両方で強力なパフォーマンスを実現している。
しかし、これらのモデルは一般的に大規模なデータセットに依存しており、事前訓練段階では相当な計算を必要とする。
さらに、いくつかのポストトレーニング手法が提案されているが、しばしば外部データに依存するか、タスク固有のカスタマイズに制限される。
本稿では,自己改善型ポストトレーニングアプローチであるUniRLを紹介する。
当社のアプローチでは,外部画像データに頼ることなく,プロンプトから画像を生成し,各イテレーションでトレーニングデータとして使用することが可能になる。
さらに、生成した画像は理解するために使用され、理解結果は生成を監督するために使用される。
モデル最適化のための教師付き微調整(SFT)とグループ相対政策最適化(GRPO)について検討する。
UniRLには3つの大きな利点がある:(1)訓練中にモデル自体からトレーニングサンプルが生成されるため、外部画像データを必要としない、(2)個別のタスクパフォーマンスを改善するだけでなく、生成と理解のバランスを低下させる、(3)訓練後の段階では、追加のトレーニングステップがいくつか必要となる。
我々は,Show-o と Janus の上の UniRL を評価し,Show-o の GenEval スコア0.77 とJanus の 0.65 を達成した。
コードとモデルはhttps://github.com/showlab/UniRL.comでリリースされる。
関連論文リスト
- Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。