論文の概要: UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.14760v1
- Date: Tue, 18 Nov 2025 18:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.278297
- Title: UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning
- Title(参考訳): UniGen-1.5:Reinforcement Learningにおけるリワード統一による画像生成と編集の強化
- Authors: Rui Tian, Mingfei Gao, Haiming Gang, Jiasen Lu, Zhe Gan, Yinfei Yang, Zuxuan Wu, Afshin Dehghan,
- Abstract要約: We present UniGen-1.5, a unified multimodal large language model (MLLM) for advanced image understand, generation and editing。
UniGenを基盤として、画像理解と生成能力を強化するために、モデルアーキテクチャとトレーニングパイプラインを包括的に強化する。
- 参考スコア(独自算出の注目度): 77.17292564002328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present UniGen-1.5, a unified multimodal large language model (MLLM) for advanced image understanding, generation and editing. Building upon UniGen, we comprehensively enhance the model architecture and training pipeline to strengthen the image understanding and generation capabilities while unlocking strong image editing ability. Especially, we propose a unified Reinforcement Learning (RL) strategy that improves both image generation and image editing jointly via shared reward models. To further enhance image editing performance, we propose a light Edit Instruction Alignment stage that significantly improves the editing instruction comprehension that is essential for the success of the RL training. Experimental results show that UniGen-1.5 demonstrates competitive understanding and generation performance. Specifically, UniGen-1.5 achieves 0.89 and 4.31 overall scores on GenEval and ImgEdit that surpass the state-of-the-art models such as BAGEL and reaching performance comparable to proprietary models such as GPT-Image-1.
- Abstract(参考訳): We present UniGen-1.5, a unified multimodal large language model (MLLM) for advanced image understand, generation and editing。
UniGen上に構築したモデルアーキテクチャとトレーニングパイプラインを包括的に拡張し,強力な画像編集能力を確保しつつ,画像理解と生成能力を強化する。
特に,共有報酬モデルを用いて画像生成と画像編集を協調的に改善する統合強化学習(RL)戦略を提案する。
画像編集性能をさらに向上させるために,RLトレーニングの成功に不可欠な編集命令理解を大幅に改善するライト編集命令調整ステージを提案する。
実験の結果、UniGen-1.5は競争力のある理解と生成性能を示すことが示された。
具体的には、UniGen-1.5は、BAGELのような最先端のモデルを超え、GPT-Image-1のようなプロプライエタリなモデルに匹敵するパフォーマンスに達するGenEvalとImgEditで0.89と4.31のスコアを得る。
関連論文リスト
- DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文 参考訳(メタデータ) (2026-02-12T17:44:24Z) - EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling [71.8265422228785]
強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって妨げられている。
我々は、最先端の特殊報酬モデルの開発を中心に、この障壁を克服するための包括的な方法論を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:28:24Z) - AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset [31.986549060226594]
GPT-IMAGE-EDIT-1.5Mは、150万以上の高品質のトリプル(インストラクション、ソースイメージ、編集画像)を含む、一般公開された大規模画像編集コーパスである。
我々は、GPT-4oの汎用機能を活用して、OmniEdit、HQ-Edit、UltraEditという3つの一般的な画像編集データセットを統合し、洗練することで、このデータセットを構築する。
我々は,GPT-IMAGE-EDIT-1.5M上で,高度なオープンソースモデルを微調整した。
論文 参考訳(メタデータ) (2025-07-28T17:54:04Z) - Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning [40.75264235359017]
VARGPT-v1.1は高度な統合視覚自己回帰モデルである。
このモデルは、視覚的理解のための次世代予測と画像合成のための次世代生成という2つのパラダイムを保存している。
マルチモーダル理解とテキスト・ツー・イメージ・インストラクション・フォロータスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-04-03T18:06:28Z) - DreamOmni: Unified Image Generation and Editing [76.46811926046225]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - Image Inpainting Models are Effective Tools for Instruction-guided Image Editing [42.63350374074953]
CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing Trackの優勝作品である。
4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。
その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
論文 参考訳(メタデータ) (2024-07-18T03:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。