Fugu-MT 論文翻訳(概要): SpotEdit: Selective Region Editing in Diffusion Transformers

論文の概要: SpotEdit: Selective Region Editing in Diffusion Transformers

arxiv url: http://arxiv.org/abs/2512.22323v1
Date: Fri, 26 Dec 2025 14:59:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-30 22:37:29.995571
Title: SpotEdit: Selective Region Editing in Diffusion Transformers
Title（参考訳）: SpotEdit: 拡散変換器における選択領域編集
Authors: Zhibin Qin, Zhenxiong Tan, Zeqing Wang, Songhua Liu, Xinchao Wang,
Abstract要約: SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
参考スコア（独自算出の注目度）: 66.44912649206553
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion Transformer models have significantly advanced image editing by encoding conditional images and integrating them into transformer layers. However, most edits involve modifying only small regions, while current methods uniformly process and denoise all tokens at every timestep, causing redundant computation and potentially degrading unchanged areas. This raises a fundamental question: Is it truly necessary to regenerate every region during editing? To address this, we propose SpotEdit, a training-free diffusion editing framework that selectively updates only the modified regions. SpotEdit comprises two key components: SpotSelector identifies stable regions via perceptual similarity and skips their computation by reusing conditional image features; SpotFusion adaptively blends these features with edited tokens through a dynamic fusion mechanism, preserving contextual coherence and editing quality. By reducing unnecessary computation and maintaining high fidelity in unmodified areas, SpotEdit achieves efficient and precise image editing.
Abstract（参考訳）: 拡散変換器モデルは条件付き画像を符号化し、変換器層に統合することにより、画像編集が大幅に進歩する。しかし、ほとんどの編集は小さな領域だけを変更することを含み、現在のメソッドは各タイミングで全てのトークンを均一に処理し、デノネーズし、冗長な計算を引き起こし、変更のない領域を劣化させる可能性がある。編集中にすべてのリージョンを再生することは本当に必要か? そこで本研究では,修正領域のみを選択的に更新する学習自由拡散編集フレームワークであるSpotEditを提案する。 SpotFusionは動的融合機構を通じてこれらの機能を編集トークンと適応的にブレンドし、コンテキストコヒーレンスと編集品質を保存する。不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。

関連論文リスト

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing [7.53296048773288]
テキスト誘導画像編集は、ソース画像の同一性を保ちながら、ターゲットプロンプトに従って特定の領域を変更することを目的としている。最近の手法では、明示的なバイナリマスクを使用して編集を制限しているが、ハードマスク境界はアーティファクトを導入し、編集性を低減する。我々は,高精度かつ制御可能な編集を実現する訓練不要の画像編集フレームワークFusionEditを提案する。
論文参考訳（メタデータ） (2026-02-09T14:34:18Z)
FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing [52.54102743380658]
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。 FlowDCは既存の方法に比べて優れた結果を示した。
論文参考訳（メタデータ） (2025-12-12T09:08:39Z)
SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文参考訳（メタデータ） (2025-10-06T17:51:04Z)
NEP: Autoregressive Image Editing via Next Editing Token Prediction [16.69384738678215]
本稿では,自動回帰画像生成に基づくNext Editing-token Prediction(NEP)として画像編集を定式化することを提案する。我々のモデルは、ゼロショット方式でその生成を反復的に精錬することで、テスト時間スケーリング(TTS)を自然にサポートします。
論文参考訳（メタデータ） (2025-08-08T06:06:34Z)
EEdit: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing [47.68813248789496]
本稿では,効率的な画像編集を実現するためのフレームワークであるEEditを提案する。実験では、幅広い編集タスクのパフォーマンス低下なしに平均2.46ドルの加速を実証している。
論文参考訳（メタデータ） (2025-03-13T11:26:45Z)
LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文参考訳（メタデータ） (2024-03-01T10:46:47Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。 InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文参考訳（メタデータ） (2023-12-28T02:54:34Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。