論文の概要: Diff-VPS: Video Polyp Segmentation via a Multi-task Diffusion Network with Adversarial Temporal Reasoning
- arxiv url: http://arxiv.org/abs/2409.07238v1
- Date: Wed, 11 Sep 2024 12:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-12 14:35:46.043661
- Title: Diff-VPS: Video Polyp Segmentation via a Multi-task Diffusion Network with Adversarial Temporal Reasoning
- Title(参考訳): Diff-VPS: 対向時間共振を用いたマルチタスク拡散ネットワークによるビデオポリプセグメンテーション
- Authors: Yingling Lu, Yijun Yang, Zhaohu Xing, Qiong Wang, Lei Zhu,
- Abstract要約: 本稿では,Diff-VPSと呼ばれるビデオポリプセグメンテーションタスクのための新しい拡散型ネットワークを提案する。
マルチタスクの監視を拡散モデルに組み込んで,画素ごとのセグメンテーションにおける拡散モデルの識別を促進する。
時間的依存を探索するため、TRM(Temporal Reasoning Module)は、以前のフレームからターゲットフレームを推論および再構成することで考案される。
- 参考スコア(独自算出の注目度): 12.37208687991656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Probabilistic Models have recently attracted significant attention in the community of computer vision due to their outstanding performance. However, while a substantial amount of diffusion-based research has focused on generative tasks, no work introduces diffusion models to advance the results of polyp segmentation in videos, which is frequently challenged by polyps' high camouflage and redundant temporal cues.In this paper, we present a novel diffusion-based network for video polyp segmentation task, dubbed as Diff-VPS. We incorporate multi-task supervision into diffusion models to promote the discrimination of diffusion models on pixel-by-pixel segmentation. This integrates the contextual high-level information achieved by the joint classification and detection tasks. To explore the temporal dependency, Temporal Reasoning Module (TRM) is devised via reasoning and reconstructing the target frame from the previous frames. We further equip TRM with a generative adversarial self-supervised strategy to produce more realistic frames and thus capture better dynamic cues. Extensive experiments are conducted on SUN-SEG, and the results indicate that our proposed Diff-VPS significantly achieves state-of-the-art performance. Code is available at https://github.com/lydia-yllu/Diff-VPS.
- Abstract(参考訳): 拡散確率モデル(Diffusion Probabilistic Models)はその卓越した性能のため、近年、コンピュータビジョンのコミュニティにおいて大きな注目を集めている。
しかし, ビデオにおけるポリプセグメンテーションの結果を前進させる拡散モデルの導入は, ポリプの高カモフラージュと冗長な時間的手がかりによってしばしば議論されているが, ビデオポリプセグメンテーションタスクのための新しい拡散ベースネットワークであるDiff-VPSを提案する。
マルチタスクの監視を拡散モデルに組み込んで,画素ごとのセグメンテーションにおける拡散モデルの識別を促進する。
これは、共同分類および検出タスクによって達成される文脈上の高レベル情報を統合する。
時間的依存を探索するため、TRM(Temporal Reasoning Module)は、以前のフレームからターゲットフレームを推論および再構成することで考案される。
さらに、より現実的なフレームを生成し、よりダイナミックなキューをキャプチャするために、TRMに生成的対向的自己監督戦略を装備する。
SUN-SEGを用いた大規模実験を行い,提案したDiff-VPSが最先端性能を著しく向上することを示す。
コードはhttps://github.com/lydia-yllu/Diff-VPS.comで入手できる。
関連論文リスト
- Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - USP: Unified Self-Supervised Pretraining for Image Generation and Understanding [15.717333276867462]
Unified Self-supervised Pretraining (USP) は、変分オートエンコーダ(VAE)潜時空間におけるマスク付き潜時モデリングにより拡散モデルを初期化するフレームワークである。
USPは、拡散モデルの収束速度と生成品質を大幅に改善しながら、理解タスクにおいて同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-08T09:01:03Z) - Vision-Enhanced Time Series Forecasting via Latent Diffusion Models [12.54316645614762]
LDM4TSは視覚強調時系列予測のための遅延拡散モデルの強力な画像再構成機能を利用する新しいフレームワークである。
時系列を多視点視覚表現に変換するための補完的変換手法を最初に用いた。
論文 参考訳(メタデータ) (2025-02-16T14:15:06Z) - Diffusion-based Perceptual Neural Video Compression with Temporal Diffusion Information Reuse [45.134271969594614]
DiffVCは拡散型知覚型ニューラルビデオ圧縮フレームワークである。
基礎拡散モデルとビデオ条件符号化パラダイムを統合する。
提案手法は,知覚指標と視覚的品質の両方において優れた性能を提供することを示す。
論文 参考訳(メタデータ) (2025-01-23T10:23:04Z) - DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文 参考訳(メタデータ) (2024-10-14T00:41:58Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Frame Interpolation with Consecutive Brownian Bridge Diffusion [21.17973023413981]
ビデオフレーム補間(VFI)は、拡散に基づく条件付き画像生成問題としてVFIを定式化しようとする。
本稿では,Branian Bridge Diffusionを用いたフレーム補間法を提案する。
論文 参考訳(メタデータ) (2024-05-09T17:46:22Z) - Diffusion-TS: Interpretable Diffusion for General Time Series Generation [6.639630994040322]
Diffusion-TSは、高品質な時系列サンプルを生成する新しい拡散ベースのフレームワークである。
各拡散ステップのノイズの代わりにサンプルを直接再構成するようにモデルを訓練し、フーリエに基づく損失項を組み合わせた。
その結果,Diffusion-TSは時系列の様々な現実的解析において最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:39:23Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Exploring Vision Transformers as Diffusion Learners [15.32238726790633]
様々な生成タスクのための拡散学習者として視覚変換器を体系的に探索する。
我々の改良により、バニラVTベースのバックボーン(IU-ViT)の性能は従来のU-Netベースの方法と同等に向上した。
我々は、64x64解像度を超えるテキスト・ツー・イメージタスクで単一の拡散モデルをトレーニングした最初の人です。
論文 参考訳(メタデータ) (2022-12-28T10:32:59Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。
特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。
これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文 参考訳(メタデータ) (2021-12-06T15:55:30Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。