Fugu-MT 論文翻訳(概要): Toward a Diffusion-Based Generalist for Dense Vision Tasks

論文の概要: Toward a Diffusion-Based Generalist for Dense Vision Tasks

arxiv url: http://arxiv.org/abs/2407.00503v1
Date: Sat, 29 Jun 2024 17:57:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 02:46:30.893575
Title: Toward a Diffusion-Based Generalist for Dense Vision Tasks
Title（参考訳）: Dense Vision Tasks のための拡散型ジェネラリストを目指して
Authors: Yue Fan, Yongqin Xian, Xiaohua Zhai, Alexander Kolesnikov, Muhammad Ferjad Naeem, Bernt Schiele, Federico Tombari,
Abstract要約: 近年の研究では、画像自体が汎用的な視覚知覚のための自然なインタフェースとして利用できることが示されている。我々は,画素空間での拡散を行い,高密度視覚タスクのための事前学習されたテキスト・画像拡散モデルを微調整するためのレシピを提案する。実験では,4種類のタスクに対して評価を行い,他のビジョンジェネラリストと競合する性能を示す。
参考スコア（独自算出の注目度）: 141.03236279493686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Building generalized models that can solve many computer vision tasks simultaneously is an intriguing direction. Recent works have shown image itself can be used as a natural interface for general-purpose visual perception and demonstrated inspiring results. In this paper, we explore diffusion-based vision generalists, where we unify different types of dense prediction tasks as conditional image generation and re-purpose pre-trained diffusion models for it. However, directly applying off-the-shelf latent diffusion models leads to a quantization issue. Thus, we propose to perform diffusion in pixel space and provide a recipe for finetuning pre-trained text-to-image diffusion models for dense vision tasks. In experiments, we evaluate our method on four different types of tasks and show competitive performance to the other vision generalists.
Abstract（参考訳）: 多くのコンピュータビジョンタスクを同時に解決できる一般化されたモデルを構築することは興味深い方向性である。近年の研究では、画像自体が汎用的な視覚知覚のための自然なインタフェースとして利用でき、刺激的な結果が示されている。本稿では、拡散に基づく視覚一般論について検討し、条件付き画像生成とそれに対する目的付き事前学習拡散モデルとして、様々な種類の密度予測タスクを統一する。しかし、オフザシェルフ潜在拡散モデルを直接適用すると量子化の問題が発生する。そこで我々は,画素空間での拡散を行い,高密度視覚タスクのための事前学習されたテキスト・画像拡散モデルを微調整するためのレシピを提案する。実験では,4種類のタスクに対して評価を行い,他のビジョンジェネラリストと競合する性能を示す。

関連論文リスト

USP: Unified Self-Supervised Pretraining for Image Generation and Understanding [15.717333276867462]
Unified Self-supervised Pretraining (USP) は、変分オートエンコーダ(VAE)潜時空間におけるマスク付き潜時モデリングにより拡散モデルを初期化するフレームワークである。 USPは、拡散モデルの収束速度と生成品質を大幅に改善しながら、理解タスクにおいて同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-08T09:01:03Z)
From Image to Video: An Empirical Study of Diffusion Representations [37.09795196423048]
拡散モデルは生成モデルに革命をもたらし、画像合成やビデオ合成において前例のないリアリズムを可能にした。この研究は、視覚的理解のための映像と画像の拡散目標の直接比較として初めて行われ、表現学習における時間情報の役割についての洞察を提供する。
論文参考訳（メタデータ） (2025-02-10T19:53:46Z)
Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文参考訳（メタデータ） (2024-06-17T01:49:27Z)
Explaining generative diffusion models via visual analysis for interpretable decision-making process [28.552283701883766]
本稿では,モデルが生成する視覚的概念の観点から,拡散過程を解釈する3つの研究課題を提案する。我々は,拡散過程を可視化し,上記の研究課題に答えて,拡散過程を人間に理解しやすいものにするためのツールを考案した。
論文参考訳（メタデータ） (2024-02-16T02:12:20Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。 InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文参考訳（メタデータ） (2023-09-07T17:56:57Z)
Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文参考訳（メタデータ） (2023-05-24T14:00:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。