論文の概要: InstantRetouch: Efficient and High-Fidelity Instruction-Guided Image Retouching with Bilateral Space
- arxiv url: http://arxiv.org/abs/2606.05071v1
- Date: Wed, 03 Jun 2026 16:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.898111
- Title: InstantRetouch: Efficient and High-Fidelity Instruction-Guided Image Retouching with Bilateral Space
- Title(参考訳): InstantRetouch: 双方向空間を用いた高速かつ高忠実なインストラクションガイド画像再構成
- Authors: Jiarui Wu, Yujin Wang, Ruikang Li, Fan Zhang, Mingde Yao, Tianfan Xue,
- Abstract要約: 両空間操作を用いた効率的かつ忠実なリタッチ手法を提案する。
画像やピクセルを直接編集する代わりに、アフィン変換の低分解能二値格子を予測する。
このアプローチは高い忠実度と効率性の両方をもたらす。
- 参考スコア(独自算出の注目度): 28.786282485917678
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language-guided photo retouching aims to adjust color and tone while preserving geometry and texture. Recently, diffusion-based retouching shows a superior visual quality, but often struggles with both fidelity issues due to its generative nature and efficiency because of its iterative sampling process. In this work, we propose an efficient and fidelity-preserving retouching method using bilateral space manipulation, which is both compact and content-decoupled. Specifically, instead of directly editing pixels or image latents, our model predicts a low-resolution bilateral grid of affine transforms, which are sliced using a learned guidance map and then applied to the full-resolution image. This approach yields both high fidelity and improved efficiency. To retain strong priors of a pretrained generative model, we distill a multi-step diffusion model into our bilateral grid framework using Variational Score Distillation, complemented by a prompt alignment loss to guide instruction-following behavior. Additionally, we introduce a new benchmark and evaluate our method across multiple dimensions: fidelity, instruction following, and efficiency. Compared to the latest retouch methods, like Gemini-2.5-Flash (Nano-Banana), our method can avoid content drift, significantly improve latency, and generate visually pleasing edits, while maintaining a high level of fidelity. Project page: https://openimaginglab.github.io/InstantRetouch/.
- Abstract(参考訳): 言語誘導型写真リタッチは、形状やテクスチャを保ちながら色とトーンを調整することを目的としている。
近年、拡散型リタッチは視覚的品質が優れているが、その生成性や効率性から、その反復的なサンプリングプロセスのため、フィデリティの問題に悩まされることが多い。
本研究では,両空間操作を用いた効率的かつ忠実なリタッチ手法を提案する。
具体的には、画素や画像遅延を直接編集する代わりに、アフィン変換の低分解能二値格子を予測し、学習したガイダンスマップを用いてスライスし、全分解能画像に適用する。
このアプローチは高い忠実度と効率性の両方をもたらす。
事前学習した生成モデルの強い先行性を維持するため、可変スコア蒸留法を用いて多段階拡散モデルを両側グリッドに蒸留し、即時アライメント損失を補足して指示追従動作を導出する。
さらに,新しいベンチマークを導入し,複数の次元にまたがる手法,忠実度,命令従順性,効率性を評価する。
Gemini-2.5-Flash(Nano-Banana)のような最新のリタッチ手法と比較して,本手法はコンテンツドリフトを回避し,遅延を大幅に改善し,高レベルの忠実さを維持しながら視覚的に満足な編集を生成することができる。
プロジェクトページ: https://openimaginglab.github.io/InstantRetouch/.com
関連論文リスト
- Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - LUSD: Localized Update Score Distillation for Text-Guided Image Editing [11.293199854940772]
近年の研究では, テキスト・ツー・イメージ拡散モデルに先立って, 豊かな生成を生かしたスコア蒸留技術が導入されている。
注意に基づく空間正規化と勾配フィルタリング-正規化の2つの簡易かつ効果的な修正を提案する。
実験結果から,本手法は,最先端の蒸留技術よりも高速な忠実度を実現し,背景を保ちながら良好な編集を行なえることを示した。
論文 参考訳(メタデータ) (2025-03-14T03:45:29Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Robust GAN inversion [5.1359892878090845]
本稿では,ネイティブの潜伏空間を$W$で処理し,画像の詳細を復元するためにジェネレータネットワークをチューニングする手法を提案する。
Flickr-Faces-HQ と LSUN Church の2つの複雑なデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-08-31T07:47:11Z) - DriftRec: Adapting diffusion models to blind JPEG restoration [16.596100244509575]
拡散モデルの高忠実度生成能力を利用して、高圧縮レベルでのブラインドJPEG復元を解く。
提案手法は, ぼやけた画像を生成する他の手法の傾向を回避でき, クリーンな画像の分布をより忠実に再現できることを示す。
論文 参考訳(メタデータ) (2022-11-12T22:29:42Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。