Fugu-MT 論文翻訳(概要): What Matters When Repurposing Diffusion Models for General Dense Perception Tasks?

論文の概要: What Matters When Repurposing Diffusion Models for General Dense Perception Tasks?

arxiv url: http://arxiv.org/abs/2403.06090v3
Date: Thu, 24 Oct 2024 07:36:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.287597
Title: What Matters When Repurposing Diffusion Models for General Dense Perception Tasks?
Title（参考訳）: 一般感知覚課題における拡散モデルの再検討
Authors: Guangkai Xu, Yongtao Ge, Mingyu Liu, Chengxiang Fan, Kangyang Xie, Zhiyue Zhao, Hao Chen, Chunhua Shen,
Abstract要約: 最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
参考スコア（独自算出の注目度）: 49.84679952948808
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Extensive pre-training with large data is indispensable for downstream geometry and semantic visual perception tasks. Thanks to large-scale text-to-image (T2I) pretraining, recent works show promising results by simply fine-tuning T2I diffusion models for dense perception tasks. However, several crucial design decisions in this process still lack comprehensive justification, encompassing the necessity of the multi-step stochastic diffusion mechanism, training strategy, inference ensemble strategy, and fine-tuning data quality. In this work, we conduct a thorough investigation into critical factors that affect transfer efficiency and performance when using diffusion priors. Our key findings are: 1) High-quality fine-tuning data is paramount for both semantic and geometry perception tasks. 2) The stochastic nature of diffusion models has a slightly negative impact on deterministic visual perception tasks. 3) Apart from fine-tuning the diffusion model with only latent space supervision, task-specific image-level supervision is beneficial to enhance fine-grained details. These observations culminate in the development of GenPercept, an effective deterministic one-step fine-tuning paradigm tailed for dense visual perception tasks. Different from the previous multi-step methods, our paradigm has a much faster inference speed, and can be seamlessly integrated with customized perception decoders and loss functions for image-level supervision, which is critical to improving the fine-grained details of predictions. Comprehensive experiments on diverse dense visual perceptual tasks, including monocular depth estimation, surface normal estimation, image segmentation, and matting, are performed to demonstrate the remarkable adaptability and effectiveness of our proposed method.
Abstract（参考訳）: 大規模なデータによる大規模な事前学習は、下流の幾何学や意味的な視覚的知覚タスクには不可欠である。大規模テキスト・トゥ・イメージ(T2I)事前学習により、近年の研究では、高密度知覚タスクのための微調整T2I拡散モデルによる有望な結果が示されている。しかし、このプロセスにおけるいくつかの重要な設計決定は、多段階確率拡散機構、トレーニング戦略、推論アンサンブル戦略、微調整データ品質の必要性を含む、包括的な正当化を欠いている。本研究では,拡散前処理における伝達効率と性能に影響を及ぼす重要な要因について,徹底的に検討する。私たちの主要な発見は次のとおりです。 1) セマンティックおよび幾何学的知覚タスクにおいて,高品質な微調整データが最重要である。 2)拡散モデルの確率的性質は,決定論的視覚知覚タスクにわずかに負の影響を及ぼす。 3) 遅延空間監視のみによる拡散モデルの微調整は別として, タスク固有の画像レベルの監督は, きめ細かな詳細性を高める上で有益である。これらの観察は、濃密な視覚的知覚タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発に繋がる。従来のマルチステップ手法と異なり、我々のパラダイムはより高速な推論速度を持ち、カスタマイズされた認識デコーダや画像レベルの監視のためのロス関数とシームレスに統合することができ、予測のきめ細かな詳細化に欠かせない。単眼深度推定,表面正規度推定,画像分割,マッティングなど多種多様な視覚的知覚タスクに関する総合的な実験を行い,提案手法の顕著な適応性と有効性を示した。

関連論文リスト

Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model [32.831576387973875]
安定, 高精度, 微粒な幾何的密度予測のための2段階決定的フレームワークを提案する。特に、第1段階では、コア予測器は、クリーンデータ目的の単一ステップ決定論的定式化を採用する。第2段階では、ディテールシャープナーは、コア予測器によって定義される多様体内で制約付き多段階整流補正を行う。
論文参考訳（メタデータ） (2025-11-30T18:57:25Z)
Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文参考訳（メタデータ） (2025-11-24T01:13:51Z)
Semantic-guided Fine-tuning of Foundation Model for Long-tailed Visual Recognition [38.74388860692423]
長期視覚認識のための基礎モデルのセマンティック誘導微調整法(セージ)を提案する。クラス記述をセマンティックガイダンスとして統合したSG-Adapterを導入し,ビジュアルエンコーダの微調整を指導する。ベンチマークデータセットの実験は、長期学習におけるパフォーマンス向上における提案されたSageの有効性を示す。
論文参考訳（メタデータ） (2025-07-17T05:47:19Z)
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。 DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文参考訳（メタデータ） (2025-02-24T13:51:06Z)
HYPNOS : Highly Precise Foreground-focused Diffusion Finetuning for Inanimate Objects [1.706656684496508]
頑健な拡散モデルは、ある積の結果のほぼ完全な再構成を行う能力によって決定される。現在の顕著な拡散に基づく微調整技術は、前景オブジェクトの一貫性を維持するには不十分である。我々は,高精度な前景焦点拡散微調整技術であるHypnosを提案する。
論文参考訳（メタデータ） (2024-10-18T08:20:37Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文参考訳（メタデータ） (2024-02-15T05:07:54Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文参考訳（メタデータ） (2023-03-17T07:47:55Z)
Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文参考訳（メタデータ） (2022-07-28T21:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。