論文の概要: OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
- arxiv url: http://arxiv.org/abs/2511.19990v1
- Date: Tue, 25 Nov 2025 06:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.319375
- Title: OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
- Title(参考訳): OmniRefiner:強化型局所拡散リファインメント
- Authors: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song,
- Abstract要約: VAEベースの潜伏圧縮は微妙なテクスチャ情報を破棄し、アイデンティティと属性固有の手がかりが消滅する。
参照駆動補正の2段階を連続的に行う細部対応精細化フレームワークである ourMthd を紹介した。
実験により,我々のMthdは参照アライメントと細かなディテール保存を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 10.329465965964571
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce \ourMthd{}, a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that \ourMthd{} significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.
- Abstract(参考訳): 参照誘導画像生成は急速に進展しているが、現在の拡散モデルでは、参照を用いて生成された画像を精細化する際には、細かな視覚的詳細を保存するのに苦慮している。
この制限は、VAEベースの潜伏圧縮が本質的に微妙なテクスチャ情報を破棄し、アイデンティティと属性固有の手がかりが消滅するからである。
さらに、既存の手法に基づいて局所的な詳細を増幅する後編集アプローチは、照明、テクスチャ、形状の点で元の画像と矛盾する結果をもたらすことが多い。
そこで本研究では,画素レベルの整合性を高めるために,参照駆動補正の2段階を連続的に行う,細部対応の精細化フレームワークである \ourMthd{} を紹介する。
まず、単一画像拡散エディタを微調整して、ドラフト画像と参照画像の同時取り込みを行い、構造的忠実性を維持しつつ、グローバルなコヒーレントな精細化を可能にする。
次に、局所的な編集能力を更に強化するために強化学習を適用し、詳細精度とセマンティック一貫性を明示的に最適化する。
大規模な実験により, 参照アライメントと詳細な詳細保存を著しく改善し, オープンソースと商用の両モデルにまたがる忠実かつ視覚的に整合した編集を, 挑戦的な参照誘導修復ベンチマーク上で行うことが実証された。
関連論文リスト
- The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment [105.31858867473845]
ImageCriticはエージェントフレームワークに統合され、不整合を自動的に検出し、マルチラウンドおよびローカル編集で修正する。
実験では、ImageCriticは様々なカスタマイズされた生成シナリオで詳細に関連する問題を効果的に解決することができ、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-25T18:40:25Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Structure-Preserving Zero-Shot Image Editing via Stage-Wise Latent Injection in Diffusion Models [3.3845637570565814]
テキスト誘導と参照誘導のアプローチを微調整を必要とせずに統一するゼロショット画像編集のための拡散ベースのフレームワークを提案する。
本手法は拡散インバージョンと時間ステップ固有のヌルテキスト埋め込みを利用して,画像の構造的整合性を維持する。
参照遅延を伴うクロスアテンションは、ソースと参照間のセマンティックアライメントを促進する。
論文 参考訳(メタデータ) (2025-04-22T09:18:16Z) - From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。
現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文 参考訳(メタデータ) (2025-04-19T13:40:46Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。