Fugu-MT 論文翻訳(概要): Diffusion Models Trained with Large Data Are Transferable Visual Models

論文の概要: Diffusion Models Trained with Large Data Are Transferable Visual Models

arxiv url: http://arxiv.org/abs/2403.06090v1
Date: Sun, 10 Mar 2024 04:23:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 08:54:14.098805
Title: Diffusion Models Trained with Large Data Are Transferable Visual Models
Title（参考訳）: 大容量データを用いた拡散モデルは伝達可能な視覚モデルである
Authors: Guangkai Xu, Yongtao Ge, Mingyu Liu, Chengxiang Fan, Kangyang Xie, Zhiyue Zhao, Hao Chen, Chunhua Shen
Abstract要約: そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
参考スコア（独自算出の注目度）: 51.9937114613558
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We show that, simply initializing image understanding models using a pre-trained UNet (or transformer) of diffusion models, it is possible to achieve remarkable transferable performance on fundamental vision perception tasks using a moderate amount of target data (even synthetic data only), including monocular depth, surface normal, image segmentation, matting, human pose estimation, among virtually many others. Previous works have adapted diffusion models for various perception tasks, often reformulating these tasks as generation processes to align with the diffusion process. In sharp contrast, we demonstrate that fine-tuning these models with minimal adjustments can be a more effective alternative, offering the advantages of being embarrassingly simple and significantly faster. As the backbone network of Stable Diffusion models is trained on giant datasets comprising billions of images, we observe very robust generalization capabilities of the diffusion backbone. Experimental results showcase the remarkable transferability of the backbone of diffusion models across diverse tasks and real-world datasets.
Abstract（参考訳）: 拡散モデルの事前訓練されたUNet(または変換器)を用いて画像理解モデルの初期化を行うことで、モノクロ深度、表面正規化、画像分割、マッチング、人間のポーズ推定などを含む適度な量の目標データ(合成データのみ)を用いて、基本的な視覚知覚タスクにおいて顕著な伝達性能を達成することができることを示す。従来の研究は、様々な知覚タスクに拡散モデルを適用しており、拡散プロセスに合わせてこれらのタスクを生成プロセスとして再構成することが多い。対照的に,これらのモデルを最小限の調整で微調整することは,より効果的な代替手段になり得ることを実証する。安定拡散モデルのバックボーンネットワークは、数十億の画像からなる巨大なデータセットに基づいて訓練されるため、拡散バックボーンの非常に堅牢な一般化能力が観察される。実験結果は,多様なタスクと実世界のデータセットにわたる拡散モデルのバックボーンの顕著な転送可能性を示す。

関連論文リスト

Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model [32.831576387973875]
安定, 高精度, 微粒な幾何的密度予測のための2段階決定的フレームワークを提案する。特に、第1段階では、コア予測器は、クリーンデータ目的の単一ステップ決定論的定式化を採用する。第2段階では、ディテールシャープナーは、コア予測器によって定義される多様体内で制約付き多段階整流補正を行う。
論文参考訳（メタデータ） (2025-11-30T18:57:25Z)
Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文参考訳（メタデータ） (2025-11-24T01:13:51Z)
Semantic-guided Fine-tuning of Foundation Model for Long-tailed Visual Recognition [38.74388860692423]
長期視覚認識のための基礎モデルのセマンティック誘導微調整法(セージ)を提案する。クラス記述をセマンティックガイダンスとして統合したSG-Adapterを導入し,ビジュアルエンコーダの微調整を指導する。ベンチマークデータセットの実験は、長期学習におけるパフォーマンス向上における提案されたSageの有効性を示す。
論文参考訳（メタデータ） (2025-07-17T05:47:19Z)
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。 DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文参考訳（メタデータ） (2025-02-24T13:51:06Z)
HYPNOS : Highly Precise Foreground-focused Diffusion Finetuning for Inanimate Objects [1.706656684496508]
頑健な拡散モデルは、ある積の結果のほぼ完全な再構成を行う能力によって決定される。現在の顕著な拡散に基づく微調整技術は、前景オブジェクトの一貫性を維持するには不十分である。我々は,高精度な前景焦点拡散微調整技術であるHypnosを提案する。
論文参考訳（メタデータ） (2024-10-18T08:20:37Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文参考訳（メタデータ） (2024-02-15T05:07:54Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文参考訳（メタデータ） (2023-03-17T07:47:55Z)
Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文参考訳（メタデータ） (2022-07-28T21:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。