論文の概要: UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.14760v1
- Date: Tue, 18 Nov 2025 18:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.278297
- Title: UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning
- Title(参考訳): UniGen-1.5:Reinforcement Learningにおけるリワード統一による画像生成と編集の強化
- Authors: Rui Tian, Mingfei Gao, Haiming Gang, Jiasen Lu, Zhe Gan, Yinfei Yang, Zuxuan Wu, Afshin Dehghan,
- Abstract要約: We present UniGen-1.5, a unified multimodal large language model (MLLM) for advanced image understand, generation and editing。
UniGenを基盤として、画像理解と生成能力を強化するために、モデルアーキテクチャとトレーニングパイプラインを包括的に強化する。
- 参考スコア(独自算出の注目度): 77.17292564002328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present UniGen-1.5, a unified multimodal large language model (MLLM) for advanced image understanding, generation and editing. Building upon UniGen, we comprehensively enhance the model architecture and training pipeline to strengthen the image understanding and generation capabilities while unlocking strong image editing ability. Especially, we propose a unified Reinforcement Learning (RL) strategy that improves both image generation and image editing jointly via shared reward models. To further enhance image editing performance, we propose a light Edit Instruction Alignment stage that significantly improves the editing instruction comprehension that is essential for the success of the RL training. Experimental results show that UniGen-1.5 demonstrates competitive understanding and generation performance. Specifically, UniGen-1.5 achieves 0.89 and 4.31 overall scores on GenEval and ImgEdit that surpass the state-of-the-art models such as BAGEL and reaching performance comparable to proprietary models such as GPT-Image-1.
- Abstract(参考訳): We present UniGen-1.5, a unified multimodal large language model (MLLM) for advanced image understand, generation and editing。
UniGen上に構築したモデルアーキテクチャとトレーニングパイプラインを包括的に拡張し,強力な画像編集能力を確保しつつ,画像理解と生成能力を強化する。
特に,共有報酬モデルを用いて画像生成と画像編集を協調的に改善する統合強化学習(RL)戦略を提案する。
画像編集性能をさらに向上させるために,RLトレーニングの成功に不可欠な編集命令理解を大幅に改善するライト編集命令調整ステージを提案する。
実験の結果、UniGen-1.5は競争力のある理解と生成性能を示すことが示された。
具体的には、UniGen-1.5は、BAGELのような最先端のモデルを超え、GPT-Image-1のようなプロプライエタリなモデルに匹敵するパフォーマンスに達するGenEvalとImgEditで0.89と4.31のスコアを得る。
関連論文リスト
- EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling [71.8265422228785]
強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって妨げられている。
我々は、最先端の特殊報酬モデルの開発を中心に、この障壁を克服するための包括的な方法論を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:28:24Z) - Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning [40.75264235359017]
VARGPT-v1.1は高度な統合視覚自己回帰モデルである。
このモデルは、視覚的理解のための次世代予測と画像合成のための次世代生成という2つのパラダイムを保存している。
マルチモーダル理解とテキスト・ツー・イメージ・インストラクション・フォロータスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-04-03T18:06:28Z) - Image Inpainting Models are Effective Tools for Instruction-guided Image Editing [42.63350374074953]
CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing Trackの優勝作品である。
4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。
その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
論文 参考訳(メタデータ) (2024-07-18T03:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。