論文の概要: RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details
- arxiv url: http://arxiv.org/abs/2604.06870v1
- Date: Wed, 08 Apr 2026 09:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.454781
- Title: RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details
- Title(参考訳): RefineAnything: 完全なローカル詳細のためのマルチモーダルリージョン特有なリファインメント
- Authors: Dewei Zhou, You Li, Zongxin Yang, Yi Yang,
- Abstract要約: 本稿では,領域固有の画像の精細化を専用の問題設定として紹介する。
ゴールは、細かな細部を復元し、編集されていないすべてのピクセルを厳格に調整することだ。
既存の命令駆動編集モデルでは、粗い粒度のセマンティック編集が強調されている。
- 参考スコア(独自算出の注目度): 41.48256151708512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce region-specific image refinement as a dedicated problem setting: given an input image and a user-specified region (e.g., a scribble mask or a bounding box), the goal is to restore fine-grained details while keeping all non-edited pixels strictly unchanged. Despite rapid progress in image generation, modern models still frequently suffer from local detail collapse (e.g., distorted text, logos, and thin structures). Existing instruction-driven editing models emphasize coarse-grained semantic edits and often either overlook subtle local defects or inadvertently change the background, especially when the region of interest occupies only a small portion of a fixed-resolution input. We present RefineAnything, a multimodal diffusion-based refinement model that supports both reference-based and reference-free refinement. Building on a counter-intuitive observation that crop-and-resize can substantially improve local reconstruction under a fixed VAE input resolution, we propose Focus-and-Refine, a region-focused refinement-and-paste-back strategy that improves refinement effectiveness and efficiency by reallocating the resolution budget to the target region, while a blended-mask paste-back guarantees strict background preservation. We further introduce a boundary-aware Boundary Consistency Loss to reduce seam artifacts and improve paste-back naturalness. To support this new setting, we construct Refine-30K (20K reference-based and 10K reference-free samples) and introduce RefineEval, a benchmark that evaluates both edited-region fidelity and background consistency. On RefineEval, RefineAnything achieves strong improvements over competitive baselines and near-perfect background preservation, establishing a practical solution for high-precision local refinement. Project Page: https://limuloo.github.io/RefineAnything/.
- Abstract(参考訳): 入力画像とユーザ指定領域(例えば、スクリブルマスクやバウンディングボックス)が与えられた場合、未編集のピクセルを厳密に調整しつつ、細かな細部を復元することが目的である。
画像生成の急速な進歩にもかかわらず、現代モデルは依然として局所的な細部破壊(例えば、歪んだテキスト、ロゴ、細い構造)に悩まされている。
既存の命令駆動編集モデルでは、粗いセマンティックな編集が強調され、微妙な局所的な欠陥を見落としたり、特に関心領域が固定解像度入力のごく一部を占める場合、背景を不注意に変化させることがある。
RefineAnythingは,参照ベースと参照フリーの両リファインメントをサポートするマルチモーダル拡散ベースリファインメントモデルである。
固定されたVAE入力解像度下での局所的再構築を著しく改善する反直感的な観察に基づいて, 混合マスクペーストバックは厳密な背景保存を保証しつつ, 解決予算を目標領域に再配置することで, 改良効率と効率を向上させる地域別改良・ペーストバック戦略であるFocus-and-Refineを提案する。
さらに,シームアーティファクトを低減し,ペーストバック自然性を改善するために境界対応境界整合損失を導入する。
この新たな設定をサポートするために、Refine-30K(20K参照ベースと10K参照フリーサンプル)を構築し、RefineEvalという、編集領域の忠実度と背景の一貫性の両方を評価するベンチマークを導入する。
RefineEvalでは、RefineAnythingは競争ベースラインとほぼ完璧なバックグラウンド保存よりも強力な改善を実現し、高精度な局所改善のための実用的なソリューションを確立している。
Project Page: https://limuloo.github.io/RefineAnything/.com
関連論文リスト
- Mining Forgery Traces from Reconstruction Error: A Weakly Supervised Framework for Multimodal Deepfake Temporal Localization [25.609186178759995]
本稿では,再構成誤りによる偽造を識別する,弱教師付き偽造に基づく時間的局所化フレームワークを提案する。
我々のフレームワークは、本質的なパターンを学習するために、認証データのみに訓練されたMasked Autoencoder(MAE)を使用している。
本稿では,RT-Deepfakeが時間的局所化の弱化において最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2026-01-29T09:35:27Z) - OmniRefiner: Reinforcement-Guided Local Diffusion Refinement [10.329465965964571]
VAEベースの潜伏圧縮は微妙なテクスチャ情報を破棄し、アイデンティティと属性固有の手がかりが消滅する。
参照駆動補正の2段階を連続的に行う細部対応精細化フレームワークである ourMthd を紹介した。
実験により,我々のMthdは参照アライメントと細かなディテール保存を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-11-25T06:57:49Z) - GaussianLens: Localized High-Resolution Reconstruction via On-Demand Gaussian Densification [77.40235389999]
そこで本研究では,ユーザの関心領域の詳細な情報を取得するために,初期3DGSを高密度化するための一般化可能なネットワークを提案する。
提案手法の局所的な細部再構築における優れた性能と,最大1024時間1024ドルの解像度の画像に対するスケーラビリティを示す実験を行った。
論文 参考訳(メタデータ) (2025-09-29T23:58:49Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Building Bridges across Spatial and Temporal Resolutions: Reference-Based Super-Resolution via Change Priors and Conditional Diffusion Model [13.368558322546784]
RefSRは、リモートセンシング画像の空間的および時間的解像度にまたがる橋を構築する可能性がある。
条件付き拡散モデルにより、現実的な高解像度画像を生成する新たな機会が開かれた。
本稿では,RefSRに対するRef-Diffを提案する。
論文 参考訳(メタデータ) (2024-03-26T07:48:49Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - GLocal: Global Graph Reasoning and Local Structure Transfer for Person
Image Generation [2.580765958706854]
我々は、人像生成、すなわち、腐敗したテクスチャや異なるポーズなど、様々な条件下で人像を生成することに焦点を当てる。
本稿では,異なる意味領域間のスタイル相互相関を世界規模で推論することで,咬合認識のテクスチャ推定を改善するためのGLocalフレームワークを提案する。
局所構造情報保存のために,さらにソース画像の局所構造を抽出し,局所構造転送により生成画像に復元する。
論文 参考訳(メタデータ) (2021-12-01T03:54:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。