Fugu-MT 論文翻訳(概要): Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

論文の概要: Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

arxiv url: http://arxiv.org/abs/2604.25636v1
Date: Tue, 28 Apr 2026 13:36:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.877076
Title: Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models
Title（参考訳）: 再生によるリファインメント:統一マルチモーダルモデルにおける画像リファインメントの強化
Authors: Jiayi Guo, Linqing Wang, Jiangshan Wang, Yang Yue, Zeyu Liu, Zhiyuan Zhao, Qinglin Lu, Gao Huang, Chunyu Wang,
Abstract要約: 統一マルチモーダルモデル(UMM)は、視覚的理解と生成を単一のフレームワークに統合する。現在のUMMベースの精細化手法はRvE(Refinement-via-editing)パラダイムに従っており、UMMは、整合性のあるコンテンツを保存しながら、不整合性のある領域を修正するための編集命令を生成する。本稿では,リファインメントを編集ではなく条件付き画像再生として再構成する新しいフレームワークであるRefinement via Regeneration (RvR)を提案する。
参考スコア（独自算出の注目度）: 31.610744580137634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unified multimodal models (UMMs) integrate visual understanding and generation within a single framework. For text-to-image (T2I) tasks, this unified capability allows UMMs to refine outputs after their initial generation, potentially extending the performance upper bound. Current UMM-based refinement methods primarily follow a refinement-via-editing (RvE) paradigm, where UMMs produce editing instructions to modify misaligned regions while preserving aligned content. However, editing instructions often describe prompt-image misalignment only coarsely, leading to incomplete refinement. Moreover, pixel-level preservation, though necessary for editing, unnecessarily restricts the effective modification space for refinement. To address these limitations, we propose Refinement via Regeneration (RvR), a novel framework that reformulates refinement as conditional image regeneration rather than editing. Instead of relying on editing instructions and enforcing strict content preservation, RvR regenerates images conditioned on the target prompt and the semantic tokens of the initial image, enabling more complete semantic alignment with a larger modification space. Extensive experiments demonstrate the effectiveness of RvR, improving Geneval from 0.78 to 0.91, DPGBench from 84.02 to 87.21, and UniGenBench++ from 61.53 to 77.41.
Abstract（参考訳）: 統一マルチモーダルモデル(UMM)は、視覚的理解と生成を単一のフレームワークに統合する。テキスト・トゥ・イメージ(T2I)タスクの場合、この統一された機能により、UMMは初期生成後に出力を洗練でき、性能上界を拡張できる可能性がある。現在のUMMベースの洗練手法は、主にRvEパラダイムに従っており、UMMは、整列したコンテンツを保存しながら、不整列した領域を修正するための編集命令を生成する。しかし、編集命令は、しばしば急激なイメージの不一致を粗末に記述し、不完全な洗練につながった。さらに、編集に必要となる画素レベルの保存は、改善のための効果的な修正空間を不必要に制限する。これらの制約に対処するため、我々は、修正を編集ではなく条件付き画像再生として再構成する新しいフレームワークであるRefinement via Regeneration (RvR)を提案する。編集命令や厳密なコンテンツ保存に頼らず、RvRはターゲットプロンプトと初期画像のセマンティックトークンに条件付けられた画像を再生し、より完全なセマンティックアライメントを可能にする。大規模な実験ではRvRの有効性が示され、Genevalは0.78から0.91に改善され、DPGBenchは84.02から87.21に、UniGenBench++は61.53から77.41に改善された。

論文の概要: Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

関連論文リスト