論文の概要: The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy
- arxiv url: http://arxiv.org/abs/2512.14423v1
- Date: Tue, 16 Dec 2025 14:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.740786
- Title: The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy
- Title(参考訳): 悪は注意共有にある:注意シナジーによる、複雑な非厳密なイメージの編集を改善する
- Authors: Zhuo Chen, Fanyue Wei, Runze Xu, Jingjing Li, Lixin Duan, Angela Yao, Wen Li,
- Abstract要約: 我々は,SynPSを紹介した。SynPSは位置埋め込みとセマンティック情報を利用して,忠実な非剛性画像編集を行う手法である。
本稿では,各段階で必要な編集規模を定量化する編集計測手法を提案する。
位置と意味を適応的に統合することで、SynPSはオーバー編集とアンダー編集の両方を効果的に避ける。
- 参考スコア(独自算出の注目度): 71.39358554558667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training-free image editing with large diffusion models has become practical, yet faithfully performing complex non-rigid edits (e.g., pose or shape changes) remains highly challenging. We identify a key underlying cause: attention collapse in existing attention sharing mechanisms, where either positional embeddings or semantic features dominate visual content retrieval, leading to over-editing or under-editing.To address this issue, we introduce SynPS, a method that Synergistically leverages Positional embeddings and Semantic information for faithful non-rigid image editing. We first propose an editing measurement that quantifies the required editing magnitude at each denoising step. Based on this measurement, we design an attention synergy pipeline that dynamically modulates the influence of positional embeddings, enabling SynPS to balance semantic modifications and fidelity preservation.By adaptively integrating positional and semantic cues, SynPS effectively avoids both over- and under-editing. Extensive experiments on public and newly curated benchmarks demonstrate the superior performance and faithfulness of our approach.
- Abstract(参考訳): 大規模な拡散モデルによる訓練不要の画像編集は実用的になったが、複雑な非厳密な編集(例えば、ポーズや形状の変化)を忠実に行うことは極めて困難である。
位置埋め込みや意味的特徴が視覚コンテンツ検索を支配し、過剰な編集や過小編集に繋がる、既存の注意共有メカニズムにおける注意崩壊は、この問題に対処するため、SynPSを導入し、Synergisticsは位置埋め込みとセマンティック情報を忠実な非厳密な画像編集に活用する。
まず,各段階で必要な編集規模を定量化する編集計測手法を提案する。
この測定に基づいて、位置埋め込みの影響を動的に調整し、SynPSが意味的変化と忠実性保存のバランスをとることのできる注目相乗効果パイプラインを設計し、位置的および意味的手がかりを適応的に統合することにより、SynPSはオーバー編集とアンダー編集の両方を効果的に回避する。
公開および新たにキュレートされたベンチマークに関する大規模な実験は、我々のアプローチの優れたパフォーマンスと忠実さを示している。
関連論文リスト
- LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - Improving Diffusion-Based Image Editing Faithfulness via Guidance and Scheduling [1.8876415010297893]
画像編集において2つの重要な側面は、修正の程度を決定する編集可能性と、修正されていない要素がどれだけよく保存されているかを反映する忠実性である。
本稿では,編集可能性に最小限の影響を伴って忠実度を高めるFGSを提案する。
実験結果から, FGSは編集性を維持しつつ, 良好な忠実性が得られることが示された。
論文 参考訳(メタデータ) (2025-06-26T06:46:03Z) - AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。