論文の概要: SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2510.12784v1
- Date: Tue, 14 Oct 2025 17:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.435592
- Title: SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
- Title(参考訳): SRUM:統一マルチモーダルモデルのためのファイングラインド自己回帰
- Authors: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu,
- Abstract要約: Unified Multimodal Models (UMM) は、視覚言語の生成と理解機能を単一のフレームワークに統合する。
モデルはユーザの指示に基づいてイメージを正しく理解するが、テキストプロンプトから忠実なイメージを生成することはできない。
SRUMは,様々な設計の既存のUMMに直接適用可能な,自己回帰型ポストトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 44.79249920949795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, remarkable progress has been made in Unified Multimodal Models (UMMs), which integrate vision-language generation and understanding capabilities within a single framework. However, a significant gap exists where a model's strong visual understanding often fails to transfer to its visual generation. A model might correctly understand an image based on user instructions, yet be unable to generate a faithful image from text prompts. This phenomenon directly raises a compelling question: Can a model achieve self-improvement by using its understanding module to reward its generation module? To bridge this gap and achieve self-improvement, we introduce SRUM, a self-rewarding post-training framework that can be directly applied to existing UMMs of various designs. SRUM creates a feedback loop where the model's own understanding module acts as an internal ``evaluator'', providing corrective signals to improve its generation module, without requiring additional human-labeled data. To ensure this feedback is comprehensive, we designed a global-local dual reward system. To tackle the inherent structural complexity of images, this system offers multi-scale guidance: a \textbf{global reward} ensures the correctness of the overall visual semantics and layout, while a \textbf{local reward} refines fine-grained, object-level fidelity. SRUM leads to powerful capabilities and shows strong generalization, boosting performance on T2I-CompBench from 82.18 to \textbf{88.37} and on T2I-ReasonBench from 43.82 to \textbf{46.75}. Overall, our work establishes a powerful new paradigm for enabling a UMMs' understanding module to guide and enhance its own generation via self-rewarding.
- Abstract(参考訳): 近年,統一マルチモーダルモデル (UMMs) において,視覚言語の生成と理解機能をひとつのフレームワークに統合する開発が進められている。
しかし、モデルの強い視覚的理解が、しばしばその視覚的生成に伝達できないような大きなギャップが存在する。
モデルはユーザの指示に基づいてイメージを正しく理解するが、テキストプロンプトから忠実なイメージを生成することはできない。
モデルは、その生成モジュールに報酬を与えるためにその理解モジュールを使用することで、自己改善を達成できますか?
このギャップを埋め、自己改善を実現するために、様々な設計の既存のUMMに直接適用可能な自己回帰ポストトレーニングフレームワークSRUMを導入する。
SRUMは、モデル自身の理解モジュールが内部の `evaluator'' として機能し、追加の人間ラベルデータを必要としない、生成モジュールを改善するための補正信号を提供するフィードバックループを作成する。
このフィードバックが包括的であることを保証するため、我々はグローバルローカルな双対報酬システムを構築した。
a \textbf{global reward} は全体の視覚的意味論とレイアウトの正しさを保証する一方、 \textbf{local reward} は細粒度でオブジェクトレベルの忠実さを改良する。
SRUMは強力な能力をもたらし、強力な一般化を示し、T2I-CompBench は82.18 から \textbf{88.37} に、T2I-ReasonBench は43.82 から \textbf{46.75} に性能を向上した。
全体として、我々の研究は、UMMの理解モジュールが自己回帰を通じて自身の生成をガイドし、拡張するための強力な新しいパラダイムを確立します。
関連論文リスト
- Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing [53.197392152109636]
DIM-T2I(Draw-In-Mind:Draw-In-Mind:DIM)と、GPT-4oが生成した233Kのチェーン・オブ・シンジケーションからなるDIM-Edit(DIM-Edit)という2つの補完的なサブセットからなるデータセットを紹介し、画像編集のための明示的な設計青写真として機能する。
DIM-4.6B-T2I/Edit は ImgEdit や GEdit-Bench のベンチマークにおいて、UniWorld-V1 や Step1X-Edit など、はるかに大きなモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-02T06:06:52Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation [45.52926475981602]
VILA-Uは、ビデオ、画像、言語理解、生成を統合する統一基盤モデルである。
VILA-Uは、両方のタスクに1つの自動回帰的な次世代予測フレームワークを使用している。
論文 参考訳(メタデータ) (2024-09-06T17:49:56Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。