論文の概要: Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2412.08034v1
- Date: Wed, 11 Dec 2024 02:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:28.107676
- Title: Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation
- Title(参考訳): ビデオセマンティックセグメンテーションにおける静的-動的クラスレベルの知覚整合性
- Authors: Zhigang Cen, Ningyan Guo, Wenjing Xu, Zhiyong Feng, Danlan Huang,
- Abstract要約: ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。
これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.964615076037397
- License:
- Abstract: Video semantic segmentation(VSS) has been widely employed in lots of fields, such as simultaneous localization and mapping, autonomous driving and surveillance. Its core challenge is how to leverage temporal information to achieve better segmentation. Previous efforts have primarily focused on pixel-level static-dynamic contexts matching, utilizing techniques such as optical flow and attention mechanisms. Instead, this paper rethinks static-dynamic contexts at the class level and proposes a novel static-dynamic class-level perceptual consistency (SD-CPC) framework. In this framework, we propose multivariate class prototype with contrastive learning and a static-dynamic semantic alignment module. The former provides class-level constraints for the model, obtaining personalized inter-class features and diversified intra-class features. The latter first establishes intra-frame spatial multi-scale and multi-level correlations to achieve static semantic alignment. Then, based on cross-frame static perceptual differences, it performs two-stage cross-frame selective aggregation to achieve dynamic semantic alignment. Meanwhile, we propose a window-based attention map calculation method that leverages the sparsity of attention points during cross-frame aggregation to reduce computation cost. Extensive experiments on VSPW and Cityscapes datasets show that the proposed approach outperforms state-of-the-art methods. Our implementation will be open-sourced on GitHub.
- Abstract(参考訳): ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピング、自律運転、監視など、多くの分野で広く利用されている。
その中核となる課題は、時間的情報を活用してより良いセグメンテーションを実現する方法である。
これまでは、光学フローやアテンション機構といった技術を利用して、ピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
代わりに,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性(SD-CPC)フレームワークを提案する。
本稿では,コントラスト学習と静的なセマンティックアライメントモジュールを用いた多変量クラスプロトタイプを提案する。
前者はモデルに対するクラスレベルの制約を提供し、パーソナライズされたクラス間機能とクラス内機能を取得する。
後者は、静的なセマンティックアライメントを実現するために、フレーム内の空間的マルチスケールとマルチレベルの相関を確立する。
そして、クロスフレームの静的知覚差に基づいて、2段階のクロスフレーム選択アグリゲーションを実行し、動的セマンティックアライメントを実現する。
一方,ウィンドウベースのアテンションマップ計算手法では,クロスフレームアグリゲーション時のアテンションポイントの間隔を利用して計算コストを削減する。
VSPWとCityscapesデータセットの大規模な実験は、提案手法が最先端の手法より優れていることを示している。
私たちの実装はGitHubでオープンソース化される予定です。
関連論文リスト
- Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective [10.938290904843939]
本稿では,動的セマンティクスと静的セマンティクスの両方を疎結合で捉えるために,解答と干渉を伴う学習力学の双レベル最適化(BOLD-DI)を提案する。
提案手法は既存のv-CL手法とシームレスに統合でき, 実験結果から重要な改善点が示された。
論文 参考訳(メタデータ) (2024-07-19T06:53:54Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。
HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。
連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文 参考訳(メタデータ) (2024-04-21T02:21:30Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Motion-state Alignment for Video Semantic Segmentation [4.375012768093524]
ビデオセマンティックセグメンテーションのための動き状態アライメントフレームワークを提案する。
提案手法は,動的および静的なセマンティクスをターゲットとしてピックアップする。
CityscapesとCamVidデータセットの実験は、提案手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-04-18T08:34:46Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文 参考訳(メタデータ) (2022-07-06T15:48:58Z) - Multi-modal Visual Place Recognition in Dynamics-Invariant Perception
Space [23.43468556831308]
このレターは、動的環境における位置認識を改善するために、意味的および視覚的モダリティのマルチモーダル融合の使用を探求する。
これを実現するには、まず静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計します。
次に,空間的ピラミドマッチングモデルを用いて,静的意味セグメンテーションを特徴ベクトルに符号化する。
並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。
論文 参考訳(メタデータ) (2021-05-17T13:14:52Z) - ClusterVO: Clustering Moving Instances and Estimating Visual Odometry
for Self and Surroundings [54.33327082243022]
ClusterVOはステレオビジュアルオドメトリーで、エゴと周囲の固いクラスタ/オブジェクトの両方の動きを同時にクラスタし、推定する。
以前のソリューションでは、バッチ入力やシーン構造や動的オブジェクトモデルへの事前の指示に頼っていたが、ClusterVOは一般的にオンラインであり、屋内のシーン理解や自律運転など、さまざまなシナリオで使用することができる。
論文 参考訳(メタデータ) (2020-03-29T09:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。