論文の概要: DiffusionInst: Diffusion Model for Instance Segmentation
- arxiv url: http://arxiv.org/abs/2212.02773v2
- Date: Wed, 7 Dec 2022 10:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:08:35.208004
- Title: DiffusionInst: Diffusion Model for Instance Segmentation
- Title(参考訳): DiffusionInst: インスタンス分割のための拡散モデル
- Authors: Zhangxuan Gu and Haoxing Chen and Zhuoer Xu and Jun Lan and Changhua
Meng and Weiqiang Wang
- Abstract要約: DiffusionInstはインスタンスをインスタンス認識フィルタとして表現する新しいフレームワークである。
RPNからの誘導バイアスを伴わずに、ノイズの多い基底構造を逆転するように訓練されている。
既存のインスタンスセグメンテーションモデルと比較して、競争力のあるパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 15.438504077368936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion frameworks have achieved comparable performance with
previous state-of-the-art image generation models. Researchers are curious
about its variants in discriminative tasks because of its powerful
noise-to-image denoising pipeline. This paper proposes DiffusionInst, a novel
framework that represents instances as instance-aware filters and formulates
instance segmentation as a noise-to-filter denoising process. The model is
trained to reverse the noisy groundtruth without any inductive bias from RPN.
During inference, it takes a randomly generated filter as input and outputs
mask in one-step or multi-step denoising. Extensive experimental results on
COCO and LVIS show that DiffusionInst achieves competitive performance compared
to existing instance segmentation models. We hope our work could serve as a
simple yet effective baseline, which could inspire designing more efficient
diffusion frameworks for challenging discriminative tasks. Our code is
available in https://github.com/chenhaoxing/DiffusionInst.
- Abstract(参考訳): 近年、拡散フレームワークは従来の最先端画像生成モデルと同等の性能を達成している。
研究者は、その強力なノイズから画像へのデノイジングパイプラインのために、識別タスクでその変種に興味を持っている。
本稿では,インスタンスをインスタンス認識フィルタとして表現し,ノイズからフィルタへの分節化プロセスとしてインスタンスセグメンテーションを定式化する新しいフレームワークであるdiffenceinstを提案する。
このモデルは、RPNからの誘導バイアスを伴わずにノイズの多い基底を逆転するように訓練されている。
推論中、ランダムに生成されたフィルタを入力として取り出し、1ステップまたは複数ステップでマスクを出力する。
COCOとLVISの大規模な実験結果から、DiffusionInstは既存のインスタンスセグメンテーションモデルと比較して競争性能が向上することが示された。
私たちの仕事はシンプルで効果的なベースラインとして機能し、差別的タスクに挑戦するためにより効率的な拡散フレームワークを設計するきっかけになることを期待しています。
私たちのコードはhttps://github.com/chenhaoxing/diffusioninstで利用可能です。
関連論文リスト
- Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。
物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - Diffusion Models With Learned Adaptive Noise [12.530583016267768]
本稿では,拡散過程がデータから学べるかどうかを考察する。
広く信じられている仮定は、ELBOはノイズプロセスに不変であるということである。
画像間で異なる速度でノイズを印加する学習拡散過程であるMULANを提案する。
論文 参考訳(メタデータ) (2023-12-20T18:00:16Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - UDPM: Upsampling Diffusion Probabilistic Models [33.51145642279836]
拡散確率モデル(DDPM、Denoising Diffusion Probabilistic Models)は近年注目されている。
DDPMは逆プロセスを定義することによって複雑なデータ分布から高品質なサンプルを生成する。
生成逆数ネットワーク(GAN)とは異なり、拡散モデルの潜伏空間は解釈できない。
本研究では,デノナイズ拡散過程をUDPM(Upsampling Diffusion Probabilistic Model)に一般化することを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:25:14Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - DiffusionDet: Diffusion Model for Object Detection [56.48884911082612]
DiffusionDetは、オブジェクト検出をノイズボックスからオブジェクトボックスへの遅延拡散プロセスとして定式化する新しいフレームワークである。
本研究は,ボックスの動的数と反復的評価を可能にする柔軟性の魅力的な特性を有する。
論文 参考訳(メタデータ) (2022-11-17T18:56:19Z) - Subspace Diffusion Generative Models [4.310834990284412]
スコアベースモデルは、高次元拡散過程を通じて、ノイズをデータにマッピングすることでサンプルを生成する。
データ分布がノイズに向かって進化するにつれて、射影による部分空間への拡散を制限する。
私たちのフレームワークは継続的拡散と完全に互換性があり、柔軟性を維持しています。
論文 参考訳(メタデータ) (2022-05-03T13:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。