論文の概要: DiffusionInst: Diffusion Model for Instance Segmentation
- arxiv url: http://arxiv.org/abs/2212.02773v1
- Date: Tue, 6 Dec 2022 05:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:50:00.453206
- Title: DiffusionInst: Diffusion Model for Instance Segmentation
- Title(参考訳): DiffusionInst: インスタンス分割のための拡散モデル
- Authors: Zhangxuan Gu and Haoxing Chen and Zhuoer Xu and Jun Lan and Changhua
Meng and Weiqiang Wang
- Abstract要約: DiffusionInstはインスタンスをインスタンス認識フィルタとして表現する新しいフレームワークである。
RPNからの誘導バイアスを伴わずに、ノイズの多い基底構造を逆転するように訓練されている。
既存のインスタンスセグメンテーションモデルと比較して、競争力のあるパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 15.438504077368936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion frameworks have achieved comparable performance with
previous state-of-the-art image generation models. Researchers are curious
about its variants in discriminative tasks because of its powerful
noise-to-image denoising pipeline. This paper proposes DiffusionInst, a novel
framework that represents instances as instance-aware filters and formulates
instance segmentation as a noise-to-filter denoising process. The model is
trained to reverse the noisy groundtruth without any inductive bias from RPN.
During inference, it takes a randomly generated filter as input and outputs
mask in one-step or multi-step denoising. Extensive experimental results on
COCO and LVIS show that DiffusionInst achieves competitive performance compared
to existing instance segmentation models. We hope our work could serve as a
simple yet effective baseline, which could inspire designing more efficient
diffusion frameworks for challenging discriminative tasks. Our code is
available in https://github.com/chenhaoxing/DiffusionInst.
- Abstract(参考訳): 近年、拡散フレームワークは従来の最先端画像生成モデルと同等の性能を達成している。
研究者は、その強力なノイズから画像へのデノイジングパイプラインのために、識別タスクでその変種に興味を持っている。
本稿では,インスタンスをインスタンス認識フィルタとして表現し,ノイズからフィルタへの分節化プロセスとしてインスタンスセグメンテーションを定式化する新しいフレームワークであるdiffenceinstを提案する。
このモデルは、RPNからの誘導バイアスを伴わずにノイズの多い基底を逆転するように訓練されている。
推論中、ランダムに生成されたフィルタを入力として取り出し、1ステップまたは複数ステップでマスクを出力する。
COCOとLVISの大規模な実験結果から、DiffusionInstは既存のインスタンスセグメンテーションモデルと比較して競争性能が向上することが示された。
私たちの仕事はシンプルで効果的なベースラインとして機能し、差別的タスクに挑戦するためにより効率的な拡散フレームワークを設計するきっかけになることを期待しています。
私たちのコードはhttps://github.com/chenhaoxing/diffusioninstで利用可能です。
関連論文リスト
- Diffusion Models With Learned Adaptive Noise [13.688761754326356]
画像間で異なる速度でガウス雑音を適用する学習拡散過程を提案する。
MuLAN は CIFAR-10 と ImageNet の密度推定の最先端を新たに設定する。
論文 参考訳(メタデータ) (2023-12-20T18:00:16Z) - Resfusion: Prior Residual Noise embedded Denoising Diffusion
Probabilistic Models [3.0731937470362376]
Denoising Diffusion Probabilistic Modelsは、入力画像に条件付きセグメンテーションマスクを生成することにより、画像セグメンテーションに広く利用されている。
従来の作業は、既存のエンドツーエンドモデルとデノナイズ拡散モデルとをシームレスに統合することはできません。
本稿では,セグメント化マスクやターゲット画像の種類を段階的に生成する新しいResnoise-Diffusion法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:09:38Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - UDPM: Upsampling Diffusion Probabilistic Models [38.03127458140549]
Denoising Diffusion Probabilistic Models (DDPM) が注目されている。
我々は,デノナイズ拡散過程を増幅拡散確率モデル (UDPM) に一般化することを提案する。
その結果, 標準DDPMに比べて2桁未満の拡散段数で, 256$の256Times 256$の画像のサンプル化が可能となった。
論文 参考訳(メタデータ) (2023-05-25T17:25:14Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - DiffusionDet: Diffusion Model for Object Detection [56.48884911082612]
DiffusionDetは、オブジェクト検出をノイズボックスからオブジェクトボックスへの遅延拡散プロセスとして定式化する新しいフレームワークである。
本研究は,ボックスの動的数と反復的評価を可能にする柔軟性の魅力的な特性を有する。
論文 参考訳(メタデータ) (2022-11-17T18:56:19Z) - Subspace Diffusion Generative Models [4.310834990284412]
スコアベースモデルは、高次元拡散過程を通じて、ノイズをデータにマッピングすることでサンプルを生成する。
データ分布がノイズに向かって進化するにつれて、射影による部分空間への拡散を制限する。
私たちのフレームワークは継続的拡散と完全に互換性があり、柔軟性を維持しています。
論文 参考訳(メタデータ) (2022-05-03T13:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。