論文の概要: FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing
- arxiv url: http://arxiv.org/abs/2512.01755v1
- Date: Mon, 01 Dec 2025 15:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.90719
- Title: FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing
- Title(参考訳): FreqEdit:ロバストなマルチターン画像編集のための高周波フィーチャを保存する
- Authors: Yucheng Liao, Jiajun Liang, Kaiqian Cui, Baoquan Zhao, Haoran Xie, Wei Liu, Qing Li, Xudong Mao,
- Abstract要約: トレーニング不要のフレームワークであるFreqEditを10回以上連続する安定した編集を可能にする。
提案手法は,(1) 基準速度場からの高頻度特徴注入による細部情報保存,(2) 正確な領域特異的制御のために注入強度を空間的に調節する適応注入戦略,(3) 編集軌道を周期的に補正して過度制約を防ぐ経路補償機構の3つの相乗的成分からなる。
- 参考スコア(独自算出の注目度): 23.172235115031018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing through natural language has emerged as a powerful paradigm for intuitive visual manipulation. While recent models achieve impressive results on single edits, they suffer from severe quality degradation under multi-turn editing. Through systematic analysis, we identify progressive loss of high-frequency information as the primary cause of this quality degradation. We present FreqEdit, a training-free framework that enables stable editing across 10+ consecutive iterations. Our approach comprises three synergistic components: (1) high-frequency feature injection from reference velocity fields to preserve fine-grained details, (2) an adaptive injection strategy that spatially modulates injection strength for precise region-specific control, and (3) a path compensation mechanism that periodically recalibrates the editing trajectory to prevent over-constraint. Extensive experiments demonstrate that FreqEdit achieves superior performance in both identity preservation and instruction following compared to seven state-of-the-art baselines.
- Abstract(参考訳): 自然言語によるインストラクションに基づく画像編集は、直感的な視覚操作のための強力なパラダイムとして登場した。
最近のモデルでは、シングル編集で印象的な結果が得られるが、マルチターン編集では、深刻な品質劣化に悩まされている。
系統解析により,この品質劣化の原因は,高周波情報の進行的損失であることがわかった。
トレーニング不要のフレームワークであるFreqEditを10回以上連続する安定した編集を可能にする。
提案手法は,(1) 基準速度場からの高頻度特徴注入による細部情報保存,(2) 正確な領域特異的制御のために注入強度を空間的に調節する適応注入戦略,(3) 編集軌道を周期的に補正して過度制約を防ぐ経路補償機構の3つの相乗的成分からなる。
大規模な実験により、FreqEditは7つの最先端ベースラインと比較して、アイデンティティ保存と命令の双方において優れた性能を発揮することが示された。
関連論文リスト
- Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse [44.49646322759214]
モデルの一般能力は、事前訓練された重み行列の支配的な特異方向と密接に関連していることを示す。
支配的な特異部分空間を明示的に保存することにより、シーケンシャルな編集を安定化するプラグイン・アンド・プレイフレームワークであるREVIVEを提案する。
論文 参考訳(メタデータ) (2026-01-16T07:18:14Z) - The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy [71.39358554558667]
我々は,SynPSを紹介した。SynPSは位置埋め込みとセマンティック情報を利用して,忠実な非剛性画像編集を行う手法である。
本稿では,各段階で必要な編集規模を定量化する編集計測手法を提案する。
位置と意味を適応的に統合することで、SynPSはオーバー編集とアンダー編集の両方を効果的に避ける。
論文 参考訳(メタデータ) (2025-12-16T14:08:00Z) - MonoVQD: Monocular 3D Object Detection with Variational Query Denoising and Self-Distillation [0.6144680854063939]
我々は,DETRに基づくモノクル3D検出を高速化する新しいフレームワークであるMonoVQDを紹介する。
Mask Separated Self-Attentionメカニズムにより、DeTRアーキテクチャへのデノナイズプロセスの統合が可能になる。
本稿では,従来のデノナイズ手法の消滅問題に対処するために,変分クエリ・デノナイズ手法を提案する。
厳密な実験により、MonoVQDは挑戦的なKITTI単分子ベンチマークよりも優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-06-14T14:49:12Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models [44.26371926512843]
我々は、プログレッシブな$textbfFre$qu$textbfe$ncy truncationを用いて、ユニバーサル編集タスクのための$textbfDiff$usionモデルのガイダンスを洗練するために、新しいフリーアプローチを導入する。
本手法は,様々な編集タスクや多様な画像に対して,最先端の手法で比較結果を得る。
論文 参考訳(メタデータ) (2024-04-18T04:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。