論文の概要: UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing
- arxiv url: http://arxiv.org/abs/2602.14186v1
- Date: Sun, 15 Feb 2026 15:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.686011
- Title: UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing
- Title(参考訳): UniRef-Image-Edit: スケーラブルで一貫性のあるマルチ参照画像編集を目指して
- Authors: Hongyang Wei, Bin Wen, Yancheng Long, Yankai Yang, Yuhang Hu, Tianke Zhang, Wei Chen, Haonan Fan, Kaiyu Jiang, Jiankang Chen, Changyi Liu, Kaiyu Tang, Haojie Ding, Xiao Yang, Jia Sun, Huaiqing Wang, Zhenyu Yang, Xinyu Wei, Xianglong He, Yangguang Li, Fan Yang, Tingting Gao, Lei Zhang, Guorui Zhou, Han Li,
- Abstract要約: 高性能なマルチモーダル生成システムUniRef-Image-Editを提案する。
単一画像編集と複数画像合成を単一のフレームワークに統合する。
- 参考スコア(独自算出の注目度): 33.64590153603506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present UniRef-Image-Edit, a high-performance multi-modal generation system that unifies single-image editing and multi-image composition within a single framework. Existing diffusion-based editing methods often struggle to maintain consistency across multiple conditions due to limited interaction between reference inputs. To address this, we introduce Sequence-Extended Latent Fusion (SELF), a unified input representation that dynamically serializes multiple reference images into a coherent latent sequence. During a dedicated training stage, all reference images are jointly constrained to fit within a fixed-length sequence under a global pixel-budget constraint. Building upon SELF, we propose a two-stage training framework comprising supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we jointly train on single-image editing and multi-image composition tasks to establish a robust generative prior. We adopt a progressive sequence length training strategy, in which all input images are initially resized to a total pixel budget of $1024^2$, and are then gradually increased to $1536^2$ and $2048^2$ to improve visual fidelity and cross-reference consistency. This gradual relaxation of compression enables the model to incrementally capture finer visual details while maintaining stable alignment across references. For the RL stage, we introduce Multi-Source GRPO (MSGRPO), to our knowledge the first reinforcement learning framework tailored for multi-reference image generation. MSGRPO optimizes the model to reconcile conflicting visual constraints, significantly enhancing compositional consistency. We will open-source the code, models, training data, and reward data for community research purposes.
- Abstract(参考訳): UniRef-Image-Editは、単一画像編集と複数画像合成を単一のフレームワークに統合する高性能なマルチモーダル生成システムである。
既存の拡散ベースの編集手法は、参照入力間の相互作用が限られているため、複数の条件をまたいで一貫性を維持するのに苦労することが多い。
そこで本研究では,複数の参照画像を動的にコヒーレント遅延列にシリアライズする統一的な入力表現であるSequence-Extended Latent Fusion(SELF)を提案する。
専用トレーニング段階では、全基準画像は、グローバル画素・予算制約の下で固定長シーケンス内に収まるように、共同で制約される。
SELFに基づいて,教師付き微調整(SFT)と強化学習(RL)を組み合わせた2段階のトレーニングフレームワークを提案する。
SFTの段階では、単一画像編集と複数画像合成タスクを共同で訓練し、ロバストな生成先を確立する。
入力画像はすべて1024^2$の総画素予算に切り換えられ、徐々に1536^2$と2048^2$に増加し、視力と相互参照の整合性を改善する。
この段階的な圧縮緩和により、モデルは参照間の安定したアライメントを維持しながら、より細かい視覚的詳細をインクリメンタルにキャプチャすることができる。
RLの段階では、マルチ参照画像生成に適した最初の強化学習フレームワークであるMulti-Source GRPO(MSGRPO)を導入する。
MSGRPOは、競合する視覚的制約を解決するためにモデルを最適化し、構成整合性を大幅に向上させる。
コミュニティの研究目的のために、コード、モデル、トレーニングデータ、報奨データをオープンソースにします。
関連論文リスト
- Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling [21.387568749211876]
単一画像編集と複数画像合成を統合した統合フレームワークSkywork UniPic 3.0を提案する。
マルチイメージ合成の課題に対処するために、包括的データ収集、フィルタリング、合成パイプラインを設計する。
本稿では,シーケンスモデリング問題としてマルチイメージ合成を定式化する新しいトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-22T05:23:20Z) - Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation [77.13582457917418]
サブサンプルフレームからなる格子画像にのみ依存する生成モデルを訓練する。
本研究では,Diffusion Transformer (DiT) の強い自己アテンション機構を用いて,フレーム間の相関関係を捉えることで,画像系列を生成することを学ぶ。
我々の手法は、データセット間で、品質および推論速度(少なくとも2倍の速さ)において、一貫してSoTAを上回ります。
論文 参考訳(メタデータ) (2025-12-24T16:46:04Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - Canvas-to-Image: Compositional Image Generation with Multimodal Controls [51.44122945214702]
Canvas-to-Imageは、異種制御を単一のキャンバスインターフェースに統合する統合フレームワークである。
私たちのキーとなるアイデアは、多様な制御信号を単一の合成キャンバス画像にエンコードすることで、モデルが統合された視覚空間的推論を解釈できるようにすることです。
論文 参考訳(メタデータ) (2025-11-26T18:59:56Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer [32.9330637921386]
LAMICはレイアウト対応のマルチイメージコンポジションフレームワークである。
単一の参照拡散モデルをトレーニング不要な方法でマルチ参照シナリオに拡張する。
ID-S、BG-S、IN-R、AVGのスコアにおいて、既存のマルチ参照ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-01T09:51:54Z) - MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models [30.494968865008513]
最近のテキスト・ツー・イメージモデルは、正確な視覚制御、マルチモーダル入力のバランス、複雑な画像生成のための広範な訓練を必要とする。
自己回帰型マルチモーダル画像生成のための効率的なマルチモーダルコンディショニングのための新しいフレームワークであるMENTORを提案する。
本手法は,拡散法に比べて画像再構成精度,タスク適応性,トレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-07-13T10:52:59Z) - Auto-Regressively Generating Multi-View Consistent Images [10.513203377236744]
任意のプロンプトから一貫したマルチビュー画像を生成するためのマルチビュー自動回帰(textbfMV-AR)手法を提案する。
広範に分離されたビューを生成する場合、MV-ARは以前のビューを全て利用して効果的な参照情報を抽出することができる。
一貫して一貫したマルチビュー画像を生成するMV-ARの性能と汎用性を示す実験を行った。
論文 参考訳(メタデータ) (2025-06-23T11:28:37Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。