論文の概要: Blind Inverse Problem Solving Made Easy by Text-to-Image Latent Diffusion
- arxiv url: http://arxiv.org/abs/2412.00557v1
- Date: Sat, 30 Nov 2024 18:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:17.091024
- Title: Blind Inverse Problem Solving Made Easy by Text-to-Image Latent Diffusion
- Title(参考訳): テキストから画像への遅延拡散によるブラインド逆問題の解法
- Authors: Michail Dontas, Yutong He, Naoki Murata, Yuki Mitsufuji, J. Zico Kolter, Ruslan Salakhutdinov,
- Abstract要約: 本稿では,大規模テキスト・画像拡散モデルを用いて視覚的逆問題に対処する学習自由フレームワークであるLADiBIを提案する。
自然言語のプロンプトを活用することで、LADiBIはターゲット画像と演算子の両方の事前モデルを共同でモデル化し、さまざまなタスクに柔軟な適応を可能にする。
実験の結果,LADiBIは線形および非線形の両問題を含む幅広い画像復元タスクを解くことができることがわかった。
- 参考スコア(独自算出の注目度): 95.91087143020644
- License:
- Abstract: Blind inverse problems, where both the target data and forward operator are unknown, are crucial to many computer vision applications. Existing methods often depend on restrictive assumptions such as additional training, operator linearity, or narrow image distributions, thus limiting their generalizability. In this work, we present LADiBI, a training-free framework that uses large-scale text-to-image diffusion models to solve blind inverse problems with minimal assumptions. By leveraging natural language prompts, LADiBI jointly models priors for both the target image and operator, allowing for flexible adaptation across a variety of tasks. Additionally, we propose a novel posterior sampling approach that combines effective operator initialization with iterative refinement, enabling LADiBI to operate without predefined operator forms. Our experiments show that LADiBI is capable of solving a broad range of image restoration tasks, including both linear and nonlinear problems, on diverse target image distributions.
- Abstract(参考訳): 対象データとフォワード演算子の両方が不明なブラインド逆問題は、多くのコンピュータビジョンアプリケーションにとって重要な問題である。
既存の方法はしばしば、追加のトレーニング、演算子線型性、あるいは狭い画像分布といった制限的な仮定に依存し、したがって一般化可能性を制限する。
本研究では,大規模テキスト・画像拡散モデルを用いて最小限の仮定で視覚的逆問題を解決する学習自由フレームワークであるLADiBIを提案する。
自然言語のプロンプトを活用することで、LADiBIはターゲット画像と演算子の両方の事前モデルを共同でモデル化し、さまざまなタスクに柔軟な適応を可能にする。
さらに,実効的な演算子の初期化と反復的改善を組み合わせ,LADiBIを予め定義された演算子形式なしで動作させることができる新しい後方サンプリング手法を提案する。
実験の結果,LADiBIは多様な対象画像分布に対して,線形および非線形の両問題を含む幅広い画像復元タスクを解くことができることがわかった。
関連論文リスト
- Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models [39.234894330025114]
テキストインプロンプトに基づく画像の翻訳において,テキスト誘導画像から画像への拡散モデルが優れている。
これは、テキスト誘導画像-画像拡散モデル(ID$2$)の原点識別タスクの導入を動機付けます。
ID$2$の直接的な解決策は、クエリと参照イメージの両方から機能を抽出し比較するために、特別なディープ埋め込みモデルをトレーニングすることである。
論文 参考訳(メタデータ) (2025-01-04T20:34:53Z) - Latent Directions: A Simple Pathway to Bias Mitigation in Generative AI [45.54709270833219]
生成的AIにおけるバイアスの緩和、特にテキスト・ツー・イメージのモデルは、社会にその影響が拡大していることを考えると、非常に重要である。
本研究は,潜在空間の方向を学習することで,多種多様な包摂的合成画像を実現するための新しいアプローチを提案する。
これらの学習された遅延方向を線形に組み合わせて、新しい緩和を導入し、望めばテキスト埋め込み調整と統合することができる。
論文 参考訳(メタデータ) (2024-06-10T15:13:51Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。