論文の概要: LATINO-PRO: LAtent consisTency INverse sOlver with PRompt Optimization
- arxiv url: http://arxiv.org/abs/2503.12615v1
- Date: Sun, 16 Mar 2025 19:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:50.031082
- Title: LATINO-PRO: LAtent consisTency INverse sOlver with PRompt Optimization
- Title(参考訳): LATINO-PRO: PRompt Optimization を用いたLatent consistency inverse solver
- Authors: Alessio Spagnoletti, Jean Prost, Andrés Almansa, Nicolas Papadakis, Marcelo Pereyra,
- Abstract要約: テキスト・ツー・イメージ潜時拡散モデル (LDM) は、画像の逆問題解決の可能性を持つ強力な生成モデルとして最近登場した。
逆ソルバ内に生成モデルを埋め込むための新しいフレームワークを提案し,特にLCM(Latent Consistency Models)に注目した。
LATINOは極めて正確な評価を行い、以前のアプローチよりもはるかにメモリと効率が良い。
- 参考スコア(独自算出の注目度): 5.962724199486207
- License:
- Abstract: Text-to-image latent diffusion models (LDMs) have recently emerged as powerful generative models with great potential for solving inverse problems in imaging. However, leveraging such models in a Plug & Play (PnP), zero-shot manner remains challenging because it requires identifying a suitable text prompt for the unknown image of interest. Also, existing text-to-image PnP approaches are highly computationally expensive. We herein address these challenges by proposing a novel PnP inference paradigm specifically designed for embedding generative models within stochastic inverse solvers, with special attention to Latent Consistency Models (LCMs), which distill LDMs into fast generators. We leverage our framework to propose LAtent consisTency INverse sOlver (LATINO), the first zero-shot PnP framework to solve inverse problems with priors encoded by LCMs. Our conditioning mechanism avoids automatic differentiation and reaches SOTA quality in as little as 8 neural function evaluations. As a result, LATINO delivers remarkably accurate solutions and is significantly more memory and computationally efficient than previous approaches. We then embed LATINO within an empirical Bayesian framework that automatically calibrates the text prompt from the observed measurements by marginal maximum likelihood estimation. Extensive experiments show that prompt self-calibration greatly improves estimation, allowing LATINO with PRompt Optimization to define new SOTAs in image reconstruction quality and computational efficiency.
- Abstract(参考訳): テキスト・ツー・イメージ潜時拡散モデル (LDM) は近年, 画像の逆問題を解く大きな可能性を持つ強力な生成モデルとして出現している。
しかし、プラグイン・アンド・プレイ(PnP)でそのようなモデルを活用するには、未知の画像に対して適切なテキストプロンプトを特定する必要があるため、ゼロショット方式は依然として困難である。
また、既存のテキスト・ツー・イメージのPnPアプローチは計算コストが高い。
本稿では、確率的逆解法に生成モデルを埋め込むために特別に設計された新しいPnP推論パラダイムを提案し、特にLCM(Latent Consistency Models)に着目し、LCMを高速発電機に蒸留する。
LCMで符号化された前処理による逆問題を解決する最初のゼロショットPnPフレームワークであるLATINO(Latent ConsisTency Inverse sOlver)を提案する。
条件付け機構は, 自動微分を回避し, 8個の神経機能評価でSOTA品質に達する。
結果として、LATINOは驚くほど正確なソリューションを提供し、以前のアプローチよりもメモリと計算効率が大幅に向上した。
次に LATINO を経験的ベイズ的枠組みに組み込んで,観測結果から得られたテキストを極端最大推定によって自動的に校正する。
大規模な実験により、迅速な自己校正により推定が大幅に改善され、画像再構成の品質と計算効率において、PRompt OptimizationのLATINOが新たなSOTAを定義できるようになった。
関連論文リスト
- INDIGO+: A Unified INN-Guided Probabilistic Diffusion Algorithm for Blind and Non-Blind Image Restoration [22.19661915697775]
非盲点画像復元のための新しい INN 誘導確率拡散アルゴリズムを提案する。
INDIGOとBlindINDIGOは、非可逆ニューラルネットワーク(INN)の完全な再構成特性と、事前訓練された拡散モデルの強力な生成能力の利点を組み合わせている。
論文 参考訳(メタデータ) (2025-01-23T18:51:52Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Variational Bayes image restoration with compressive autoencoders [4.879530644978008]
逆問題の正規化は、計算イメージングにおいて最重要となる。
本研究では,まず,最先端生成モデルの代わりに圧縮型オートエンコーダを提案する。
第2の貢献として、変分ベイズ潜時推定(VBLE)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:49:31Z) - Adaptive operator learning for infinite-dimensional Bayesian inverse problems [7.716833952167609]
本研究では,局所的に精度の高いサロゲートを強制することによって,モデリングエラーを段階的に低減できる適応型演算子学習フレームワークを開発した。
UKIフレームワークを用いて線形の場合において厳密な収束を保証する。
その結果,逆精度を維持しながら計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-10-27T01:50:33Z) - Tight Certified Robustness via Min-Max Representations of ReLU Neural
Networks [9.771011198361865]
制御システムにニューラルネットワークを確実に配置するには、厳格な堅牢性を保証する必要がある。
本稿では,ReLUニューラルネットワークの凸表現に対する強靭性証明を得る。
論文 参考訳(メタデータ) (2023-10-07T21:07:45Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。
DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z) - RAIN: A Simple Approach for Robust and Accurate Image Classification
Networks [156.09526491791772]
既存の敵防衛手法の大部分は、予測精度を犠牲にして堅牢性を実現することが示されている。
本稿では,ロバストおよび高精度画像分類N(RAIN)と呼ぶ新しい前処理フレームワークを提案する。
RAINは入力に対してランダム化を適用して、モデルフォワード予測パスと後方勾配パスの関係を壊し、モデルロバスト性を改善する。
STL10 と ImageNet のデータセットを用いて、様々な種類の敵攻撃に対する RAIN の有効性を検証する。
論文 参考訳(メタデータ) (2020-04-24T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。