論文の概要: Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.16947v1
- Date: Mon, 27 May 2024 08:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:21:29.716745
- Title: Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models
- Title(参考訳): 事前学習拡散モデルに基づくゼロショット映像セマンティックセマンティックセグメンテーション
- Authors: Qian Wang, Abdelrahman Eldesokey, Mohit Mendiratta, Fangneng Zhan, Adam Kortylewski, Christian Theobalt, Peter Wonka,
- Abstract要約: 本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 96.97910688908956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the first zero-shot approach for Video Semantic Segmentation (VSS) based on pre-trained diffusion models. A growing research direction attempts to employ diffusion models to perform downstream vision tasks by exploiting their deep understanding of image semantics. Yet, the majority of these approaches have focused on image-related tasks like semantic correspondence and segmentation, with less emphasis on video tasks such as VSS. Ideally, diffusion-based image semantic segmentation approaches can be applied to videos in a frame-by-frame manner. However, we find their performance on videos to be subpar due to the absence of any modeling of temporal information inherent in the video data. To this end, we tackle this problem and introduce a framework tailored for VSS based on pre-trained image and video diffusion models. We propose building a scene context model based on the diffusion features, where the model is autoregressively updated to adapt to scene changes. This context model predicts per-frame coarse segmentation maps that are temporally consistent. To refine these maps further, we propose a correspondence-based refinement strategy that aggregates predictions temporally, resulting in more confident predictions. Finally, we introduce a masked modulation approach to upsample the coarse maps to the full resolution at a high quality. Experiments show that our proposed approach outperforms existing zero-shot image semantic segmentation approaches significantly on various VSS benchmarks without any training or fine-tuning. Moreover, it rivals supervised VSS approaches on the VSPW dataset despite not being explicitly trained for VSS.
- Abstract(参考訳): 本稿では,事前学習した拡散モデルに基づくビデオセマンティックセグメンテーション(VSS)の最初のゼロショット手法を提案する。
増大する研究方向は、画像意味論の深い理解を利用して下流の視覚タスクを実行するために拡散モデルを用いている。
しかし、これらのアプローチの大半はセマンティック対応やセグメンテーションのような画像関連タスクに重点を置いており、VSSのようなビデオタスクにはあまり重点を置いていない。
理想的には、拡散に基づく画像セマンティックセグメンテーションアプローチは、フレーム単位でビデオに適用できる。
しかし、ビデオデータに固有の時間情報のモデリングがないため、ビデオ上でのパフォーマンスが低いことが判明した。
そこで本研究では,この課題に対処し,事前学習画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
本稿では,シーン変化に対応するために自動回帰更新を行う拡散特徴に基づくシーンコンテキストモデルの構築を提案する。
このコンテキストモデルは、時間的に一貫したフレームごとの粗いセグメンテーションマップを予測する。
そこで本研究では,これらの地図をさらに改良するために,時間的に予測を集約し,より確実な予測をもたらす対応型改良戦略を提案する。
最後に,粗い地図を高精細度に高精細化するためのマスク変調手法を提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセマンティック・アプローチを,トレーニングや微調整を伴わずに,様々なVSSベンチマークで大幅に向上することが示された。
さらに、VSSで明示的にトレーニングされていないにもかかわらず、VSPWデータセット上のVSSアプローチを監督している。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion [35.26835471419003]
ビデオのサリエンシ予測は、ビデオのボトムアップ機能や、記憶や認知などのトップダウンプロセスによって、人間の注意を引き、視線を惹きつけるビデオ内の領域を特定することを目的としている。
既存の手法は主に知覚情報のモデリングに重点を置いているが、言語による推論プロセスは無視されている。
本稿では,マルチモーダル大言語モデル(MLLM),グラウンドモジュール,拡散モデルを統合することで,そのプロセスを模倣するフレームワークであるCaRDiffを提案する。
論文 参考訳(メタデータ) (2024-08-21T21:40:30Z) - Few-Shot Medical Image Segmentation with High-Fidelity Prototypes [38.073371773707514]
本稿では,オブジェクトフォアグラウンドと背景を包括的に表現する高忠実度プロトタイプを構築するための,DSPNet(Detail Self-Refined Prototype Network)を提案する。
得られた詳細セマンティクスを維持しつつグローバルなセマンティクスを構築するために,マルチモーダル構造をクラスタリングでモデル化し,それぞれをチャネル的に融合させることにより,前景のプロトタイプを学習する。
論文 参考訳(メタデータ) (2024-06-26T05:06:14Z) - Semantic Segmentation on VSPW Dataset through Masked Video Consistency [19.851665554201407]
PVUWコンペティションのソリューションとして,既存のモデルに基づくマスク付きビデオ(MVC)を紹介する。
MVCは、パッチが保持されないマスキングランダムフレームの予測間の一貫性を強制する。
VSPWデータセットでは,PVUW2024 VSSトラックの2位で67% mIoU性能を達成した。
論文 参考訳(メタデータ) (2024-06-07T14:41:24Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - B-SCST: Bayesian Self-Critical Sequence Training for Image Captioning [8.7660229706359]
本稿では,画像キャプションモデルに対するポリシー段階に基づく強化学習手法のベイズ版を提案する。
ベイズ推論を取り入れた画像キャプションモデルに対する、よく知られた自己批判シーケンストレーニング(SCST)アプローチを拡張した。
B-SCST は Flickr30k,MS COCO,VizWiz 画像キャプションデータセットの CIDEr-D スコアを SCST アプローチと比較して改善することを示した。
論文 参考訳(メタデータ) (2020-04-06T07:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。