論文の概要: Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction
- arxiv url: http://arxiv.org/abs/2409.18124v3
- Date: Mon, 28 Oct 2024 03:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:51:02.751570
- Title: Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction
- Title(参考訳): Lotus: 高品質デンス予測のための拡散ベースビジュアルファウンデーションモデル
- Authors: Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Zhang, Bingbing Liu, Ying-Cong Chen,
- Abstract要約: 拡散に基づく視覚基盤モデルであるLotusを導入する。
特にLotusは、ノイズではなくアノテーションを直接予測するように訓練されており、有害な分散を避けることができる。
我々は,より正確できめ細かな予測が可能なディテールレザーと呼ばれる新しいチューニング戦略を導入する。
- 参考スコア(独自算出の注目度): 29.834614425056355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also enhances efficiency, being significantly faster than most existing diffusion-based methods. Lotus' superior quality and efficiency also enable a wide range of practical applications, such as joint estimation, single/multi-view 3D reconstruction, etc. Project page: https://lotus3d.github.io/.
- Abstract(参考訳): 事前訓練されたテキスト・ツー・イメージ拡散モデルの視覚的先行性を活用することは、密集予測タスクにおけるゼロショット一般化を強化するための有望なソリューションを提供する。
しかし、既存の手法はしばしば元の拡散定式化を非批判的に利用するが、これは密度予測と画像生成の根本的な違いのために最適ではないかもしれない。
本稿では,高密度予測のための拡散定式化の体系的解析を行い,品質と効率の両面に着目した。
また,ノイズの予測を学習する画像生成のパラメータ化タイプは,高密度な予測には有害であり,マルチステップのノイズ生成/デノナイズ拡散プロセスも不要であり,最適化が困難であることがわかった。
これらの知見に基づき,拡散に基づく視覚基盤モデルであるLotusを導入し,高密度予測のための簡易かつ効果的な適応プロトコルを提案する。
特にLotusは、ノイズではなくアノテーションを直接予測するように訓練されており、有害な分散を避けることができる。
また,拡散過程を1ステップの手順に再構成し,最適化を簡素化し,推論速度を大幅に向上させる。
さらに,より正確できめ細かい予測が可能なディテール・レザーバという新しいチューニング戦略を導入する。
トレーニングデータやモデルのキャパシティをスケールアップすることなく、Lotusは、ゼロショットの深さでSoTAのパフォーマンスを達成し、さまざまなデータセットにわたって正常に見積もる。
効率も向上し、既存の拡散法よりもはるかに高速である。
Lotusの優れた品質と効率性は、ジョイント推定、シングル/マルチビュー3D再構成など、幅広い実用的な応用を可能にします。
プロジェクトページ: https://lotus3d.github.io/.com
関連論文リスト
- Diffusion Priors for Variational Likelihood Estimation and Image Denoising [10.548018200066858]
本稿では,現実の雑音に対処するために,逆拡散過程における適応的確率推定とMAP推定を提案する。
実世界の多様なデータセットの実験と分析により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-23T02:52:53Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための予測最大化アルゴリズムに基づく新しい手法を提案する。
提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
論文 参考訳(メタデータ) (2024-05-22T15:04:06Z) - Multiple-Source Localization from a Single-Snapshot Observation Using Graph Bayesian Optimization [10.011338977476804]
単一スナップショット観測によるマルチソースのローカライゼーションは、その頻度が原因で特に重要となる。
現在の方法は典型的には欲求選択を利用しており、通常は1つの拡散モデルと結合する。
そこで本研究では,BOSouLというシミュレーション手法を用いて,サンプル効率を近似する手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T14:46:24Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Reconstructing Graph Diffusion History from a Single Snapshot [87.20550495678907]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。
本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。
また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文 参考訳(メタデータ) (2023-06-01T09:39:32Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。