論文の概要: NEP: Autoregressive Image Editing via Next Editing Token Prediction
- arxiv url: http://arxiv.org/abs/2508.06044v1
- Date: Fri, 08 Aug 2025 06:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.097726
- Title: NEP: Autoregressive Image Editing via Next Editing Token Prediction
- Title(参考訳): NEP:次の編集トークン予測による自動回帰画像編集
- Authors: Huimin Wu, Xiaojian Ma, Haozhe Zhao, Yanpeng Zhao, Qing Li,
- Abstract要約: 本稿では,自動回帰画像生成に基づくNext Editing-token Prediction(NEP)として画像編集を定式化することを提案する。
我々のモデルは、ゼロショット方式でその生成を反復的に精錬することで、テスト時間スケーリング(TTS)を自然にサポートします。
- 参考スコア(独自算出の注目度): 15.473371341429798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image editing involves modifying a source image based on a language instruction and, typically, requires changes to only small local regions. However, existing approaches generate the entire target image rather than selectively regenerate only the intended editing areas. This results in (1) unnecessary computational costs and (2) a bias toward reconstructing non-editing regions, which compromises the quality of the intended edits. To resolve these limitations, we propose to formulate image editing as Next Editing-token Prediction (NEP) based on autoregressive image generation, where only regions that need to be edited are regenerated, thus avoiding unintended modification to the non-editing areas. To enable any-region editing, we propose to pre-train an any-order autoregressive text-to-image (T2I) model. Once trained, it is capable of zero-shot image editing and can be easily adapted to NEP for image editing, which achieves a new state-of-the-art on widely used image editing benchmarks. Moreover, our model naturally supports test-time scaling (TTS) through iteratively refining its generation in a zero-shot manner. The project page is: https://nep-bigai.github.io/
- Abstract(参考訳): テキスト誘導画像編集は、言語命令に基づいてソースイメージを変更することを含み、典型的には、小さなローカル領域のみの変更を必要とする。
しかし、既存のアプローチでは、意図した編集領域のみを選択的に再生するのではなく、対象画像全体を生成する。
その結果、(1)不必要な計算コストと(2)非編集領域の再構築に対するバイアスが、意図した編集の質を損なうことになる。
これらの制限を解決するため、自動回帰画像生成に基づいて、画像編集をNext Editing-Token Prediction (NEP) として定式化し、編集が必要な領域のみを再生し、非編集領域への意図しない修正を避けることを提案する。
本研究では,任意の領域の編集を可能にするために,任意の順序の自己回帰的テキスト・トゥ・イメージ(T2I)モデルを事前学習することを提案する。
訓練後、ゼロショット画像編集が可能で、画像編集用のNEPに容易に適応できるため、広く使われている画像編集ベンチマークでは、新たな最先端技術が実現されている。
さらに,テストタイムスケーリング(TTS)をゼロショットで反復的に改善することで,テストタイムスケーリング(TTS)を自然にサポートする。
プロジェクトページは以下の通り。
関連論文リスト
- ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。