論文の概要: Prompt-Guided Dual Latent Steering for Inversion Problems
- arxiv url: http://arxiv.org/abs/2509.18619v1
- Date: Tue, 23 Sep 2025 04:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.695241
- Title: Prompt-Guided Dual Latent Steering for Inversion Problems
- Title(参考訳): Prompt-Guided Dual Latent Steering の逆問題への応用
- Authors: Yichen Wu, Xu Liu, Chenxuan Zhao, Xinyu Wu,
- Abstract要約: 劣化した画像を拡散モデルの潜在空間に変換することは困難である。
イメージを1つの潜在ベクトルにエンコードする現在の手法は、構造的忠実度と意味論的精度のバランスをとるのに苦労している。
Prompt-Guided Dual Latent Steering (PDLS) はRectified Flowモデル上に構築された新しいフレームワークで,その安定な反転経路を実現する。
PDLSはインバージョンプロセスを、ソースの整合性を維持する構造経路と、プロンプトによって導かれる意味経路の2つの相補的なストリームに分解する。
- 参考スコア(独自算出の注目度): 16.58915166460579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverting corrupted images into the latent space of diffusion models is challenging. Current methods, which encode an image into a single latent vector, struggle to balance structural fidelity with semantic accuracy, leading to reconstructions with semantic drift, such as blurred details or incorrect attributes. To overcome this, we introduce Prompt-Guided Dual Latent Steering (PDLS), a novel, training-free framework built upon Rectified Flow models for their stable inversion paths. PDLS decomposes the inversion process into two complementary streams: a structural path to preserve source integrity and a semantic path guided by a prompt. We formulate this dual guidance as an optimal control problem and derive a closed-form solution via a Linear Quadratic Regulator (LQR). This controller dynamically steers the generative trajectory at each step, preventing semantic drift while ensuring the preservation of fine detail without costly, per-image optimization. Extensive experiments on FFHQ-1K and ImageNet-1K under various inversion tasks, including Gaussian deblurring, motion deblurring, super-resolution and freeform inpainting, demonstrate that PDLS produces reconstructions that are both more faithful to the original image and better aligned with the semantic information than single-latent baselines.
- Abstract(参考訳): 劣化した画像を拡散モデルの潜在空間に変換することは困難である。
イメージを1つの潜伏ベクトルにエンコードする現在の手法は、構造的忠実度と意味的精度のバランスをとるのに苦労し、ぼやけた詳細や誤った属性などの意味的ドリフトを伴う再構築につながる。
これを解決するために,Rectified Flowモデル上に構築された新しいトレーニングフリーフレームワークであるPrompt-Guided Dual Latent Steering (PDLS)を紹介した。
PDLSはインバージョンプロセスを、ソースの整合性を維持する構造経路と、プロンプトによって導かれる意味経路の2つの相補的なストリームに分解する。
我々は、この二重誘導を最適制御問題として定式化し、LQR(Linear Quadratic Regulator)を介して閉形式解を導出する。
本制御器は、各ステップにおける生成軌道を動的に操り、コストのかかる画像ごとの最適化を伴わずに細部保存を確保しつつセマンティックドリフトを防止する。
FFHQ-1K と ImageNet-1K の様々なインバージョンタスクにおける広範な実験は、ガウスのデブロアリング、動きのデブロアリング、超高解像度、フリーフォームのインペイントなどであり、PDLS が元のイメージに忠実であり、単一のベースラインよりもセマンティック情報に整合した再構成を生成することを実証している。
関連論文リスト
- Runge-Kutta Approximation and Decoupled Attention for Rectified Flow Inversion and Semantic Editing [21.585366155855894]
微分方程式のルンゲ・クッタ解法に基づく整流モデルの高次インバージョン法を提案する。
本稿では,多モード拡散変換器内でテキストと画像の注意をゆがめる新しいメカニズムであるDecoupled Diffusion Transformer Attention(DDTA)を紹介する。
本手法は,忠実度と編集性の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-09-16T09:41:14Z) - Dual Recursive Feedback on Generation and Appearance Latents for Pose-Robust Text-to-Image Diffusion [15.384896404310645]
制御可能なT2Iモデルにおける制御条件を適切に反映する訓練不要なDual Recursive Feedback(DRF)システムを提案する。
提案手法は高品質でセマンティック・コヒーレントで構造的に一貫した画像を生成する。
論文 参考訳(メタデータ) (2025-08-13T07:46:00Z) - Unsupervised Deformable Image Registration with Structural Nonparametric Smoothing [21.95149344518237]
学習ベースの変形可能な画像登録(DIR)アライメントは、ニューラルネットワークを通じて従来の最適化を償却することによって加速する。
SmoothProperは、スムーズさを強制し、ネットワークのフォワードパス内でメッセージパッシングを促進するプラグイン・アンド・プレイのニューラルモジュールである。
網膜血管データセットの予備的な結果は,2912x2画像上での登録誤差を1.88ピクセルまで低減することを示した。
論文 参考訳(メタデータ) (2025-06-12T15:26:03Z) - DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing [73.12011187146481]
Diffusionモデル内のインバージョンは、実または生成された画像の潜時雑音表現を復元することを目的としている。
ほとんどの反転アプローチは、復元精度と編集の柔軟性の間の本質的にのトレードオフに悩まされている。
本稿ではDCI(Dual-Conditional Inversion)について紹介する。
論文 参考訳(メタデータ) (2025-06-03T07:46:44Z) - FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing [47.908940130654535]
FlowAlignは、最適な制御ベースの軌道制御による一貫した画像編集のためのインバージョンフリーなフローベースフレームワークである。
我々の終点正規化は、編集プロンプトとのセマンティックアライメントのバランスと、軌道に沿ったソース画像との構造的整合性を示す。
FlowAlignは、ソース保存と編集の制御性の両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-05-29T06:33:16Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Bidirectional Consistency Models [1.486435467709869]
拡散モデル(DM)は、ランダムなベクトルを反復的に認知することで、驚くほど高品質なサンプルを生成することができる。
DMはまた、確率フロー常微分方程式(PF ODE)に沿って後方に移動することにより、入力画像から雑音への逆変換も可能である。
論文 参考訳(メタデータ) (2024-03-26T18:40:36Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。