Fugu-MT 論文翻訳(概要): NEP: Autoregressive Image Editing via Next Editing Token Prediction

論文の概要: NEP: Autoregressive Image Editing via Next Editing Token Prediction

arxiv url: http://arxiv.org/abs/2508.06044v1
Date: Fri, 08 Aug 2025 06:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-11 20:39:06.097726
Title: NEP: Autoregressive Image Editing via Next Editing Token Prediction
Title（参考訳）: NEP:次の編集トークン予測による自動回帰画像編集
Authors: Huimin Wu, Xiaojian Ma, Haozhe Zhao, Yanpeng Zhao, Qing Li,
Abstract要約: 本稿では,自動回帰画像生成に基づくNext Editing-token Prediction(NEP)として画像編集を定式化することを提案する。我々のモデルは、ゼロショット方式でその生成を反復的に精錬することで、テスト時間スケーリング(TTS)を自然にサポートします。
参考スコア（独自算出の注目度）: 15.473371341429798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-guided image editing involves modifying a source image based on a language instruction and, typically, requires changes to only small local regions. However, existing approaches generate the entire target image rather than selectively regenerate only the intended editing areas. This results in (1) unnecessary computational costs and (2) a bias toward reconstructing non-editing regions, which compromises the quality of the intended edits. To resolve these limitations, we propose to formulate image editing as Next Editing-token Prediction (NEP) based on autoregressive image generation, where only regions that need to be edited are regenerated, thus avoiding unintended modification to the non-editing areas. To enable any-region editing, we propose to pre-train an any-order autoregressive text-to-image (T2I) model. Once trained, it is capable of zero-shot image editing and can be easily adapted to NEP for image editing, which achieves a new state-of-the-art on widely used image editing benchmarks. Moreover, our model naturally supports test-time scaling (TTS) through iteratively refining its generation in a zero-shot manner. The project page is: https://nep-bigai.github.io/
Abstract（参考訳）: テキスト誘導画像編集は、言語命令に基づいてソースイメージを変更することを含み、典型的には、小さなローカル領域のみの変更を必要とする。しかし、既存のアプローチでは、意図した編集領域のみを選択的に再生するのではなく、対象画像全体を生成する。その結果、(1)不必要な計算コストと(2)非編集領域の再構築に対するバイアスが、意図した編集の質を損なうことになる。これらの制限を解決するため、自動回帰画像生成に基づいて、画像編集をNext Editing-Token Prediction (NEP) として定式化し、編集が必要な領域のみを再生し、非編集領域への意図しない修正を避けることを提案する。本研究では,任意の領域の編集を可能にするために,任意の順序の自己回帰的テキスト・トゥ・イメージ(T2I)モデルを事前学習することを提案する。訓練後、ゼロショット画像編集が可能で、画像編集用のNEPに容易に適応できるため、広く使われている画像編集ベンチマークでは、新たな最先端技術が実現されている。さらに,テストタイムスケーリング(TTS)をゼロショットで反復的に改善することで,テストタイムスケーリング(TTS)を自然にサポートする。プロジェクトページは以下の通り。

論文の概要: NEP: Autoregressive Image Editing via Next Editing Token Prediction

関連論文リスト