論文の概要: Exploiting Diffusion Prior for Generalizable Pixel-Level Semantic
Prediction
- arxiv url: http://arxiv.org/abs/2311.18832v1
- Date: Thu, 30 Nov 2023 18:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:00:11.970525
- Title: Exploiting Diffusion Prior for Generalizable Pixel-Level Semantic
Prediction
- Title(参考訳): 一般化可能な画素レベルセマンティック予測に先立つ爆発拡散
- Authors: Hsin-Ying Lee, Hung-Yu Tseng, Hsin-Ying Lee, Ming-Hsuan Yang
- Abstract要約: 我々は、画素レベルのセマンティック予測タスクの先行として、事前訓練されたT2Iモデルを導入する。
我々は一連の実験を通して拡散過程を再構成し、入力されたRGB画像と出力予測分布との決定論的マッピングを確立する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
- 参考スコア(独自算出の注目度): 93.35493328885372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contents generated by recent advanced Text-to-Image (T2I) diffusion models
are sometimes too imaginative for existing off-the-shelf property semantic
predictors to estimate due to the immitigable domain gap. We introduce DMP, a
pipeline utilizing pre-trained T2I models as a prior for pixel-level semantic
prediction tasks. To address the misalignment between deterministic prediction
tasks and stochastic T2I models, we reformulate the diffusion process through a
sequence of interpolations, establishing a deterministic mapping between input
RGB images and output prediction distributions. To preserve generalizability,
we use low-rank adaptation to fine-tune pre-trained models. Extensive
experiments across five tasks, including 3D property estimation, semantic
segmentation, and intrinsic image decomposition, showcase the efficacy of the
proposed method. Despite limited-domain training data, the approach yields
faithful estimations for arbitrary images, surpassing existing state-of-the-art
algorithms.
- Abstract(参考訳): 最近のadvanced text-to-image (t2i) 拡散モデルによって生成されたコンテンツは、既成のオフ・ザ・棚特性意味予測器にとって想像力に乏しい場合がある。
画素レベルのセマンティック予測タスクの先行処理として,事前学習したT2Iモデルを利用したパイプラインDMPを導入する。
決定論的予測タスクと確率的T2Iモデルとのミスアライメントに対処するため、補間列を通じて拡散過程を再構成し、入力されたRGB画像と出力予測分布との決定論的マッピングを確立する。
一般化性を維持するため、我々は微調整事前訓練モデルへの低ランク適応を用いる。
3次元特性推定,セマンティックセグメンテーション,固有画像分解を含む5つのタスクにわたる大規模な実験により,提案手法の有効性が示された。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを上回る。
関連論文リスト
- Multilevel Diffusion: Infinite Dimensional Score-Based Diffusion Models
for Image Generation [2.7418627495572134]
スコアベース拡散モデル (SBDM) は画像生成のための最先端のアプローチとして登場した。
本稿では, 無限次元のSBDM, すなわち, 矩形領域でサポートされている関数としてトレーニングデータをモデル化する。
無限次元設定において、現在のSBDMアプローチの2つの欠点を克服する方法を実証する。
論文 参考訳(メタデータ) (2023-03-08T18:10:10Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Learning Accurate Dense Correspondences and When to Trust Them [161.76275845530964]
2つの画像に関連する密度の高い流れ場と、堅牢な画素方向の信頼度マップの推定を目指しています。
フロー予測とその不確実性を共同で学習するフレキシブルな確率的アプローチを開発する。
本手法は,幾何学的マッチングと光フローデータセットに挑戦する最新の結果を得る。
論文 参考訳(メタデータ) (2021-01-05T18:54:11Z) - Calibrated Adversarial Refinement for Stochastic Semantic Segmentation [5.849736173068868]
本稿では,各予測に関連付けられた確率が,その根拠となる真偽の正しさを反映する,セマンティックマップ上の校正された予測分布を学習するための戦略を提案する。
マルチグレーダのLIDCデータセットと、注入曖昧さのあるCityscapesデータセットに対して、最先端の成果を達成し、アプローチの汎用性と堅牢性を実証する。
本研究は,おもちゃの回帰データセットを用いて実験することにより,校正された予測分布の学習を必要とする他のタスクにコア設計を適用することができることを示す。
論文 参考訳(メタデータ) (2020-06-23T16:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。