Fugu-MT 論文翻訳(概要): Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

論文の概要: Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

arxiv url: http://arxiv.org/abs/2409.18124v1
Date: Thu, 26 Sep 2024 17:58:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 21:27:33.252343
Title: Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction
Title（参考訳）: Lotus: 高品質デンス予測のための拡散ベースビジュアルファウンデーションモデル
Authors: Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Liu, Bingbing Liu, Ying-Cong Chen,
Abstract要約: 拡散に基づく視覚基盤モデルであるLotusを導入する。特にLotusは、ノイズではなくアノテーションを直接予測するように訓練されており、有害な分散を避けることができる。我々は,より正確できめ細かな予測が可能なディテールレザーと呼ばれる新しいチューニング戦略を導入する。
参考スコア（独自算出の注目度）: 28.031854765831202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also significantly enhances efficiency, being hundreds of times faster than most existing diffusion-based methods.
Abstract（参考訳）: 事前訓練されたテキスト・ツー・イメージ拡散モデルの視覚的先行性を活用することは、密集予測タスクにおけるゼロショット一般化を強化するための有望なソリューションを提供する。しかし、既存の手法はしばしば元の拡散定式化を非批判的に利用するが、これは密度予測と画像生成の根本的な違いのために最適ではないかもしれない。本稿では,高密度予測のための拡散定式化の体系的解析を行い,品質と効率の両面に着目した。また,ノイズの予測を学習する画像生成のパラメータ化タイプは,高密度な予測には有害であり,マルチステップのノイズ生成/デノナイズ拡散プロセスも不要であり,最適化が困難であることがわかった。これらの知見に基づき,拡散に基づく視覚基盤モデルであるLotusを導入し,高密度予測のための簡易かつ効果的な適応プロトコルを提案する。特にLotusは、ノイズではなくアノテーションを直接予測するように訓練されており、有害な分散を避けることができる。また,拡散過程を1ステップの手順に再構成し,最適化を簡素化し,推論速度を大幅に向上させる。さらに,より正確できめ細かい予測が可能なディテール・レザーバという新しいチューニング戦略を導入する。トレーニングデータやモデルのキャパシティをスケールアップすることなく、Lotusは、ゼロショットの深さでSoTAのパフォーマンスを達成し、さまざまなデータセットにわたって正常に見積もる。また、既存の拡散ベースの手法の数百倍の速度で効率を大幅に向上させる。

関連論文リスト

Diffusion-DFL: Decision-focused Diffusion Models for Stochastic Optimization [15.091370734240234]
決定中心学習(DFL)は、予測器を訓練することで予測モデリングと最適化を統合し、下流の意思決定目標を最適化する。本稿では,不確かさパラメータの分布を表すために拡散モデルを訓練するDFL法を提案する。我々の拡散DFLアプローチは、決定品質の強いベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2025-10-13T16:31:17Z)
Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks [79.50756148780928]
本稿では,事前学習した拡散モデルを用いて識別課題を遂行する問題について検討する。我々は、事前学習されたレイアウト・ツー・イメージ拡散モデルの「反転」により、事前学習した凍結生成拡散モデルの識別能力を分類タスクからより複雑なオブジェクト検出タスクに拡張する。
論文参考訳（メタデータ） (2025-04-24T05:13:27Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
DPBridge: Latent Diffusion Bridge for Dense Prediction [49.1574468325115]
DPBridgeは、密度予測タスクのための最初の潜伏拡散ブリッジフレームワークである。提案手法は,異なるシナリオ下での有効性と能力の一般化を実証し,優れた性能を継続的に達成する。
論文参考訳（メタデータ） (2024-12-29T15:50:34Z)
Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization [34.53986517177061]
本稿では, 既存の拡散式蒸留法に対する新しい枠組みを提案し, 生成ではなく拡散モデルを用いて選択する。提案手法は,入力画像とテキストプロンプトに基づいて拡散モデルから発生するノイズを予測し,各ペアの損失を算出する。この合理化フレームワークは単一段階の蒸留プロセスを実現するとともに,我々の手法が様々なメトリクスにわたって最先端の手法より優れていることを示す広範な実験を行った。
論文参考訳（メタデータ） (2024-12-13T08:34:46Z)
Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets [65.42834731617226]
そこで我々は,Nabla-GFlowNetと呼ばれる拡散モデルファインタニングのための強化学習手法を提案する。提案手法は,大規模テキスト条件による画像拡散モデルである安定拡散の高速かつ多様かつ事前保存的な微調整を実現する。
論文参考訳（メタデータ） (2024-12-10T18:59:58Z)
Diffusion Priors for Variational Likelihood Estimation and Image Denoising [10.548018200066858]
本稿では,現実の雑音に対処するために,逆拡散過程における適応的確率推定とMAP推定を提案する。実世界の多様なデータセットの実験と分析により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-23T02:52:53Z)
FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。提案手法はSOTA法よりも10倍高速である。
論文参考訳（メタデータ） (2024-07-28T10:07:55Z)
Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための予測最大化アルゴリズムに基づく新しい手法を提案する。提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
論文参考訳（メタデータ） (2024-05-22T15:04:06Z)
Multiple-Source Localization from a Single-Snapshot Observation Using Graph Bayesian Optimization [10.011338977476804]
単一スナップショット観測によるマルチソースのローカライゼーションは、その頻度が原因で特に重要となる。現在の方法は典型的には欲求選択を利用しており、通常は1つの拡散モデルと結合する。そこで本研究では,BOSouLというシミュレーション手法を用いて,サンプル効率を近似する手法を提案する。
論文参考訳（メタデータ） (2024-03-25T14:46:24Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文参考訳（メタデータ） (2023-11-30T18:59:44Z)
Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文参考訳（メタデータ） (2023-11-10T09:10:09Z)
Reconstructing Graph Diffusion History from a Single Snapshot [87.20550495678907]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文参考訳（メタデータ） (2023-06-01T09:39:32Z)
Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文参考訳（メタデータ） (2023-05-24T14:00:32Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。