論文の概要: LAMS-Edit: Latent and Attention Mixing with Schedulers for Improved Content Preservation in Diffusion-Based Image and Style Editing
- arxiv url: http://arxiv.org/abs/2601.02987v1
- Date: Tue, 06 Jan 2026 12:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.934556
- Title: LAMS-Edit: Latent and Attention Mixing with Schedulers for Improved Content Preservation in Diffusion-Based Image and Style Editing
- Title(参考訳): LAMS編集:拡散に基づく画像とスタイルの編集におけるコンテンツ保存の改善を目的としたスケジューリングとアテンションの混合
- Authors: Wingwa Fu, Takayuki Okatani,
- Abstract要約: インバージョンプロセスから中間状態を活用するLAMS-Editを提案する。
両方のプロセスからの潜在表現とアテンションマップは、スケジューラによって制御される重み付けを用いて各ステップで結合される。
この技術はP2P(Prompt-to-Prompt)と統合され、LAMS編集フレームワークを形成し、リージョンマスクによる正確な編集をサポートし、LoRAによるスタイル転送を可能にする。
- 参考スコア(独自算出の注目度): 12.144338545920649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image editing using diffusion models faces challenges in balancing content preservation with edit application and handling real-image editing. To address these, we propose LAMS-Edit, leveraging intermediate states from the inversion process--an essential step in real-image editing--during edited image generation. Specifically, latent representations and attention maps from both processes are combined at each step using weighted interpolation, controlled by a scheduler. This technique, Latent and Attention Mixing with Schedulers (LAMS), integrates with Prompt-to-Prompt (P2P) to form LAMS-Edit--an extensible framework that supports precise editing with region masks and enables style transfer via LoRA. Extensive experiments demonstrate that LAMS-Edit effectively balances content preservation and edit application.
- Abstract(参考訳): 拡散モデルを用いたテキスト・ツー・イメージの編集は、コンテンツ保存と編集アプリケーションとのバランスとリアルタイム編集の処理において課題に直面している。
そこで本研究では,インバージョンプロセスから中間状態を活用するLAMS編集を提案する。
具体的には、スケジューラによって制御される重み付き補間を用いて、各ステップで両プロセスからの潜在表現と注意マップを結合する。
この手法、LAMS(Latent and Attention Mixing with Schedulers)は、P2P(Prompt-to-Prompt)と統合してLAMS編集(LAMS-Edit)を形成する。
大規模な実験により、LAMS-Editはコンテンツの保存と編集を効果的にバランスさせることが示されている。
関連論文リスト
- ProEdit: Inversion-based Editing From Prompts Done Right [63.554692704101]
インバージョンベースのビジュアル編集は、ユーザ指示に基づいて画像やビデオを編集するための効果的でトレーニングのない方法を提供する。
既存の方法は、通常、編集一貫性を維持するためにサンプリングプロセス中にソースイメージ情報を注入する。
注意点と潜伏点の両方においてこの問題に対処するProEditを提案する。
論文 参考訳(メタデータ) (2025-12-26T18:59:14Z) - Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing [76.44219733285898]
Kontinuous Kontext は命令駆動の編集モデルであり、編集強度を制御できる新しい次元を提供する。
軽量プロジェクタネットワークは、入力スカラーと編集命令をモデルの変調空間の係数にマッピングする。
本モデルのトレーニングには,既存の生成モデルを用いて,画像編集・指導・強化四重項の多種多様なデータセットを合成する。
論文 参考訳(メタデータ) (2025-10-09T17:51:03Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - FlexiEdit: Frequency-Aware Latent Refinement for Enhanced Non-Rigid Editing [22.308638156328968]
DDIMはオリジナルのイメージのキー機能とレイアウトを維持するのに不可欠であり、制限に大きく貢献する。
DDIMラテントを精錬することでテキストプロンプト入力の忠実度を向上させるFlexiEditを導入する。
本手法は画像編集,特に複雑な非剛性編集における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-07-25T08:07:40Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based
Attention-Adjusted Guidance [28.212908146852197]
我々は,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発した。
特に、MAG-Editは2つのマスクベースのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化する。
論文 参考訳(メタデータ) (2023-12-18T17:55:44Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。