論文の概要: Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2604.25636v1
- Date: Tue, 28 Apr 2026 13:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.877076
- Title: Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models
- Title(参考訳): 再生によるリファインメント:統一マルチモーダルモデルにおける画像リファインメントの強化
- Authors: Jiayi Guo, Linqing Wang, Jiangshan Wang, Yang Yue, Zeyu Liu, Zhiyuan Zhao, Qinglin Lu, Gao Huang, Chunyu Wang,
- Abstract要約: 統一マルチモーダルモデル(UMM)は、視覚的理解と生成を単一のフレームワークに統合する。
現在のUMMベースの精細化手法はRvE(Refinement-via-editing)パラダイムに従っており、UMMは、整合性のあるコンテンツを保存しながら、不整合性のある領域を修正するための編集命令を生成する。
本稿では,リファインメントを編集ではなく条件付き画像再生として再構成する新しいフレームワークであるRefinement via Regeneration (RvR)を提案する。
- 参考スコア(独自算出の注目度): 31.610744580137634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models (UMMs) integrate visual understanding and generation within a single framework. For text-to-image (T2I) tasks, this unified capability allows UMMs to refine outputs after their initial generation, potentially extending the performance upper bound. Current UMM-based refinement methods primarily follow a refinement-via-editing (RvE) paradigm, where UMMs produce editing instructions to modify misaligned regions while preserving aligned content. However, editing instructions often describe prompt-image misalignment only coarsely, leading to incomplete refinement. Moreover, pixel-level preservation, though necessary for editing, unnecessarily restricts the effective modification space for refinement. To address these limitations, we propose Refinement via Regeneration (RvR), a novel framework that reformulates refinement as conditional image regeneration rather than editing. Instead of relying on editing instructions and enforcing strict content preservation, RvR regenerates images conditioned on the target prompt and the semantic tokens of the initial image, enabling more complete semantic alignment with a larger modification space. Extensive experiments demonstrate the effectiveness of RvR, improving Geneval from 0.78 to 0.91, DPGBench from 84.02 to 87.21, and UniGenBench++ from 61.53 to 77.41.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、視覚的理解と生成を単一のフレームワークに統合する。
テキスト・トゥ・イメージ(T2I)タスクの場合、この統一された機能により、UMMは初期生成後に出力を洗練でき、性能上界を拡張できる可能性がある。
現在のUMMベースの洗練手法は、主にRvEパラダイムに従っており、UMMは、整列したコンテンツを保存しながら、不整列した領域を修正するための編集命令を生成する。
しかし、編集命令は、しばしば急激なイメージの不一致を粗末に記述し、不完全な洗練につながった。
さらに、編集に必要となる画素レベルの保存は、改善のための効果的な修正空間を不必要に制限する。
これらの制約に対処するため、我々は、修正を編集ではなく条件付き画像再生として再構成する新しいフレームワークであるRefinement via Regeneration (RvR)を提案する。
編集命令や厳密なコンテンツ保存に頼らず、RvRはターゲットプロンプトと初期画像のセマンティックトークンに条件付けられた画像を再生し、より完全なセマンティックアライメントを可能にする。
大規模な実験ではRvRの有効性が示され、Genevalは0.78から0.91に改善され、DPGBenchは84.02から87.21に、UniGenBench++は61.53から77.41に改善された。
関連論文リスト
- ResetEdit: Precise Text-guided Editing of Generated Image via Resettable Starting Latent [45.3757356193519]
近年の拡散モデルにより高品質の画像生成が可能となり, ポストジェネレーションの需要が高まっている。
再生可能な潜伏情報を直接生成プロセスに埋め込むプロアクティブな拡散編集フレームワークであるResetEditを提案する。
安定拡散に基づいて構築されたResetEditは、既存のチューニング不要な編集メソッドとシームレスに統合され、制御性と視覚的忠実性の両方において、最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-28T02:05:08Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - ReMix: Towards a Unified View of Consistent Character Generation and Editing [22.04681457337335]
ReMixは、文字一貫性の生成と編集のための統一されたフレームワークである。
ReMixモジュールとIP-ControlNetという2つのコアコンポーネントで構成されている。
ReMixはパーソナライズされた生成、画像編集、スタイル転送、マルチ条件合成など、幅広いタスクをサポートしている。
論文 参考訳(メタデータ) (2025-10-11T10:31:56Z) - Reconstruction Alignment Improves Unified Multimodal Models [92.78189113827335]
統一マルチモーダルモデル(UMM)は、単一のアーキテクチャ内で視覚的理解と生成を統一する。
リコンストラクションアライメント(Reconstruction Alignment, RecA)は、視覚理解エンコーダの埋め込みを「テキストプロンプト」として活用するリソース効率の高いポストトレーニング手法である。
わずか27GPU時間で、RecAによる後トレーニングはGenEvalとDPGBenchの画像生成性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-08T23:59:32Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。