論文の概要: Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing
- arxiv url: http://arxiv.org/abs/2509.01984v2
- Date: Wed, 03 Sep 2025 05:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.920022
- Title: Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing
- Title(参考訳): 大規模自動回帰テキストベース画像編集のための離散雑音インバージョン
- Authors: Quan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas,
- Abstract要約: 本稿では,Visual AutoRegressive Inverse Noise (VARIN)について紹介する。
VARINは、元のバックグラウンドと構造の詳細を保持しながら、指定されたプロンプトに従ってソースイメージを変更する。
- 参考スコア(独自算出の注目度): 27.10751225982887
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual autoregressive models (VAR) have recently emerged as a promising class of generative models, achieving performance comparable to diffusion models in text-to-image generation tasks. While conditional generation has been widely explored, the ability to perform prompt-guided image editing without additional training is equally critical, as it supports numerous practical real-world applications. This paper investigates the text-to-image editing capabilities of VAR by introducing Visual AutoRegressive Inverse Noise (VARIN), the first noise inversion-based editing technique designed explicitly for VAR models. VARIN leverages a novel pseudo-inverse function for argmax sampling, named Location-aware Argmax Inversion (LAI), to generate inverse Gumbel noises. These inverse noises enable precise reconstruction of the source image and facilitate targeted, controllable edits aligned with textual prompts. Extensive experiments demonstrate that VARIN effectively modifies source images according to specified prompts while significantly preserving the original background and structural details, thus validating its efficacy as a practical editing approach.
- Abstract(参考訳): VAR(Visual Autoregressive Model)は、最近、テキスト・画像生成タスクにおける拡散モデルに匹敵するパフォーマンスを達成するために、生成モデルの有望なクラスとして登場した。
条件付き生成は広く研究されているが、多くの実用的な実世界のアプリケーションをサポートするため、追加のトレーニングなしで即時誘導画像編集を行う能力も同様に重要である。
本稿では,VARモデル用に設計した最初のノイズインバージョンベース編集技術であるVisual AutoRegressive Inverse Noise (VARIN)を導入することで,VARのテキスト・画像編集機能について検討する。
VARINは、argmaxサンプリングのための新しい擬似逆関数(Location-aware Argmax Inversion (LAI))を利用して、逆ガムベルノイズを生成する。
これらの逆ノイズは、ソースイメージの正確な再構築を可能にし、テキストプロンプトに整合したターゲット付き制御可能な編集を容易にする。
大規模な実験により、VARINはソースイメージを特定のプロンプトに従って効果的に修正し、元の背景と構造の詳細を著しく保存し、実用的な編集手法としての有効性を検証した。
関連論文リスト
- Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Tight Inversion: Image-Conditioned Inversion for Real Image Editing [47.445919355293896]
本稿では,入力画像自体の最も可能な条件を利用する変換手法であるTight Inversionを紹介する。
この厳密な条件は、モデルの出力の分布を狭め、再構築性と編集性の両方を高める。
論文 参考訳(メタデータ) (2025-02-27T18:51:16Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models [18.75409092764653]
テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。
本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。
実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-03-17T06:19:30Z) - MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。