論文の概要: Exploiting Diffusion Prior for Generalizable Dense Prediction
- arxiv url: http://arxiv.org/abs/2311.18832v2
- Date: Tue, 2 Apr 2024 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:47:12.479219
- Title: Exploiting Diffusion Prior for Generalizable Dense Prediction
- Title(参考訳): 一般化Dense予測に先立つ爆発拡散
- Authors: Hsin-Ying Lee, Hung-Yu Tseng, Hsin-Ying Lee, Ming-Hsuan Yang,
- Abstract要約: 近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
- 参考スコア(独自算出の注目度): 85.4563592053464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contents generated by recent advanced Text-to-Image (T2I) diffusion models are sometimes too imaginative for existing off-the-shelf dense predictors to estimate due to the immitigable domain gap. We introduce DMP, a pipeline utilizing pre-trained T2I models as a prior for dense prediction tasks. To address the misalignment between deterministic prediction tasks and stochastic T2I models, we reformulate the diffusion process through a sequence of interpolations, establishing a deterministic mapping between input RGB images and output prediction distributions. To preserve generalizability, we use low-rank adaptation to fine-tune pre-trained models. Extensive experiments across five tasks, including 3D property estimation, semantic segmentation, and intrinsic image decomposition, showcase the efficacy of the proposed method. Despite limited-domain training data, the approach yields faithful estimations for arbitrary images, surpassing existing state-of-the-art algorithms.
- Abstract(参考訳): 最近の先進的テキスト・ツー・イメージ(T2I)拡散モデルによって生成されたコンテンツは、既成の密集予測器において、不必要な領域ギャップのために推定するには想像しすぎることがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
決定論的予測タスクと確率的T2Iモデルとのミスアライメントに対処するため、インタプリケーションのシーケンスを通じて拡散過程を再構成し、入力されたRGB画像と出力予測分布との決定論的マッピングを確立する。
一般化性を維持するために、我々はファインチューン事前訓練モデルへの低ランク適応を用いる。
3次元特性推定,セマンティックセグメンテーション,固有画像分解を含む5つのタスクにわたる大規模な実験により,提案手法の有効性が示された。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
関連論文リスト
- Discrete Modeling via Boundary Conditional Diffusion Processes [29.95155303262501]
従来のアプローチは、離散データと継続的モデリングの相違に悩まされてきた。
本稿では,まず境界を先行分布として推定する2段階の前進過程を提案する。
次に前方軌道を再スケールして境界条件拡散モデルを構築する。
論文 参考訳(メタデータ) (2024-10-29T09:42:42Z) - Empirical Bayesian image restoration by Langevin sampling with a denoising diffusion implicit prior [0.18434042562191813]
本稿では,新しい高効率画像復元手法を提案する。
DDPMデノイザーを経験的ベイズアン・ランゲヴィンアルゴリズムに組み込む。
画像推定精度と計算時間の両方において最先端の戦略を改善する。
論文 参考訳(メタデータ) (2024-09-06T16:20:24Z) - Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - Multilevel Diffusion: Infinite Dimensional Score-Based Diffusion Models for Image Generation [2.5556910002263984]
スコアベース拡散モデル (SBDM) は画像生成のための最先端のアプローチとして登場した。
本稿では, 無限次元のSBDM, すなわち, 矩形領域でサポートされている関数としてトレーニングデータをモデル化する。
無限次元設定において、現在のSBDMアプローチの2つの欠点を克服する方法を実証する。
論文 参考訳(メタデータ) (2023-03-08T18:10:10Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Learning Accurate Dense Correspondences and When to Trust Them [161.76275845530964]
2つの画像に関連する密度の高い流れ場と、堅牢な画素方向の信頼度マップの推定を目指しています。
フロー予測とその不確実性を共同で学習するフレキシブルな確率的アプローチを開発する。
本手法は,幾何学的マッチングと光フローデータセットに挑戦する最新の結果を得る。
論文 参考訳(メタデータ) (2021-01-05T18:54:11Z) - Calibrated Adversarial Refinement for Stochastic Semantic Segmentation [5.849736173068868]
本稿では,各予測に関連付けられた確率が,その根拠となる真偽の正しさを反映する,セマンティックマップ上の校正された予測分布を学習するための戦略を提案する。
マルチグレーダのLIDCデータセットと、注入曖昧さのあるCityscapesデータセットに対して、最先端の成果を達成し、アプローチの汎用性と堅牢性を実証する。
本研究は,おもちゃの回帰データセットを用いて実験することにより,校正された予測分布の学習を必要とする他のタスクにコア設計を適用することができることを示す。
論文 参考訳(メタデータ) (2020-06-23T16:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。