論文の概要: Prompt-to-Prompt: Text-Based Image Editing Via Cross-Attention Mechanisms -- The Research of Hyperparameters and Novel Mechanisms to Enhance Existing Frameworks
- arxiv url: http://arxiv.org/abs/2510.04034v1
- Date: Sun, 05 Oct 2025 04:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.413479
- Title: Prompt-to-Prompt: Text-Based Image Editing Via Cross-Attention Mechanisms -- The Research of Hyperparameters and Novel Mechanisms to Enhance Existing Frameworks
- Title(参考訳): Prompt-to-Prompt: テキストベースの画像編集 - ハイパーパラメータの研究と既存のフレームワークの強化のための新しいメカニズム
- Authors: Linn Bieske, Carla Lorente,
- Abstract要約: 本研究の目的は,プロンプト・プロンプト画像編集フレームワークの精度と信頼性を高めることである。
本稿では,「単語スワップ」手法を包括的に研究し,適応性向上のための「アテンション・リウェイト・メソッド」を開発し,サイクル不整合のような既存の制限に対処する「CL P2P」フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in image editing have shifted from manual pixel manipulation to employing deep learning methods like stable diffusion models, which now leverage cross-attention mechanisms for text-driven control. This transition has simplified the editing process but also introduced variability in results, such as inconsistent hair color changes. Our research aims to enhance the precision and reliability of prompt-to-prompt image editing frameworks by exploring and optimizing hyperparameters. We present a comprehensive study of the "word swap" method, develop an "attention re-weight method" for better adaptability, and propose the "CL P2P" framework to address existing limitations like cycle inconsistency. This work contributes to understanding and improving the interaction between hyperparameter settings and the architectural choices of neural network models, specifically their attention mechanisms, which significantly influence the composition and quality of the generated images.
- Abstract(参考訳): 画像編集の最近の進歩は、手動ピクセル操作から、安定拡散モデルのような深層学習手法に移行し、テキスト駆動制御にクロスアテンション機構を活用するようになった。
この遷移は編集過程を単純化しただけでなく、毛髪の色の変化など、結果の多様性も導入した。
本研究の目的は,ハイパーパラメータの探索と最適化により,プロンプト・プロンプト画像編集フレームワークの精度と信頼性を向上させることである。
本稿では,「単語スワップ」手法を包括的に研究し,適応性向上のための「アテンション・リウェイト・メソッド」を開発し,サイクル不整合のような既存の制限に対処する「CL P2P」フレームワークを提案する。
この研究は、ハイパーパラメータ設定とニューラルネットワークモデルのアーキテクチャ選択、特にその注意機構の理解と改善に寄与し、生成した画像の構成と品質に大きな影響を及ぼす。
関連論文リスト
- AutoEdit: Automatic Hyperparameter Tuning for Image Editing [13.730157145731674]
マルコフ決定過程を確立する強化学習フレームワークを提案する。
既存のブルートフォース手法と比較して,探索時間と計算オーバーヘッドが大幅に低減された。
論文 参考訳(メタデータ) (2025-09-18T14:56:50Z) - AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing [42.73883397041092]
本稿では,誘導機構による拡散サンプリングプロセスの修正に基づく新しい手法を提案する。
本研究では,入力画像の全体構造を保存するための自己誘導手法について検討する。
本稿では,人間の評価と定量的分析を通じて,提案手法が望ましい編集を可能にすることを示す。
論文 参考訳(メタデータ) (2024-09-02T15:21:46Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。