論文の概要: Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2412.08034v1
- Date: Wed, 11 Dec 2024 02:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 23:20:26.525036
- Title: Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation
- Title(参考訳): ビデオセマンティックセグメンテーションにおける静的-動的クラスレベルの知覚整合性
- Authors: Zhigang Cen, Ningyan Guo, Wenjing Xu, Zhiyong Feng, Danlan Huang,
- Abstract要約: ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。
これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.964615076037397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video semantic segmentation(VSS) has been widely employed in lots of fields, such as simultaneous localization and mapping, autonomous driving and surveillance. Its core challenge is how to leverage temporal information to achieve better segmentation. Previous efforts have primarily focused on pixel-level static-dynamic contexts matching, utilizing techniques such as optical flow and attention mechanisms. Instead, this paper rethinks static-dynamic contexts at the class level and proposes a novel static-dynamic class-level perceptual consistency (SD-CPC) framework. In this framework, we propose multivariate class prototype with contrastive learning and a static-dynamic semantic alignment module. The former provides class-level constraints for the model, obtaining personalized inter-class features and diversified intra-class features. The latter first establishes intra-frame spatial multi-scale and multi-level correlations to achieve static semantic alignment. Then, based on cross-frame static perceptual differences, it performs two-stage cross-frame selective aggregation to achieve dynamic semantic alignment. Meanwhile, we propose a window-based attention map calculation method that leverages the sparsity of attention points during cross-frame aggregation to reduce computation cost. Extensive experiments on VSPW and Cityscapes datasets show that the proposed approach outperforms state-of-the-art methods. Our implementation will be open-sourced on GitHub.
- Abstract(参考訳): ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピング、自律運転、監視など、多くの分野で広く利用されている。
その中核となる課題は、時間的情報を活用してより良いセグメンテーションを実現する方法である。
これまでは、光学フローやアテンション機構といった技術を利用して、ピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
代わりに,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性(SD-CPC)フレームワークを提案する。
本稿では,コントラスト学習と静的なセマンティックアライメントモジュールを用いた多変量クラスプロトタイプを提案する。
前者はモデルに対するクラスレベルの制約を提供し、パーソナライズされたクラス間機能とクラス内機能を取得する。
後者は、静的なセマンティックアライメントを実現するために、フレーム内の空間的マルチスケールとマルチレベルの相関を確立する。
そして、クロスフレームの静的知覚差に基づいて、2段階のクロスフレーム選択アグリゲーションを実行し、動的セマンティックアライメントを実現する。
一方,ウィンドウベースのアテンションマップ計算手法では,クロスフレームアグリゲーション時のアテンションポイントの間隔を利用して計算コストを削減する。
VSPWとCityscapesデータセットの大規模な実験は、提案手法が最先端の手法より優れていることを示している。
私たちの実装はGitHubでオープンソース化される予定です。
関連論文リスト
- SemanticFlow: A Self-Supervised Framework for Joint Scene Flow Prediction and Instance Segmentation in Dynamic Environments [10.303368447554591]
本稿では,全時間点雲のシーンフローとインスタンスセグメンテーションを同時に予測するマルチタスクフレームワークを提案する。
1)静的な背景と動的オブジェクトの最初の粗いセグメンテーションを用いて、共有特徴処理モジュールを介して動きと意味情報を精製するためのコンテキスト情報を提供するマルチタスクスキームの開発,2)シーンフロー推定とインスタンスセグメンテーションの性能を高めるための損失関数セットの開発,そして,交通シーン内の静的および動的オブジェクトの空間的および時間的一貫性を確保することを支援すること,3)粗い学習スキームの開発。
論文 参考訳(メタデータ) (2025-03-19T02:43:19Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective [10.938290904843939]
本稿では,動的セマンティクスと静的セマンティクスの両方を疎結合で捉えるために,解答と干渉を伴う学習力学の双レベル最適化(BOLD-DI)を提案する。
提案手法は既存のv-CL手法とシームレスに統合でき, 実験結果から重要な改善点が示された。
論文 参考訳(メタデータ) (2024-07-19T06:53:54Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。
HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。
連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文 参考訳(メタデータ) (2024-04-21T02:21:30Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Motion-state Alignment for Video Semantic Segmentation [4.375012768093524]
ビデオセマンティックセグメンテーションのための動き状態アライメントフレームワークを提案する。
提案手法は,動的および静的なセマンティクスをターゲットとしてピックアップする。
CityscapesとCamVidデータセットの実験は、提案手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-04-18T08:34:46Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文 参考訳(メタデータ) (2022-07-06T15:48:58Z) - Learning Local and Global Temporal Contexts for Video Semantic Segmentation [80.01394521812969]
コンテキスト情報はビデオセマンティックセグメンテーション(VSS)のコア役割を果たす
本稿では,VSSの文脈を2つにまとめる:ローカル時間文脈(LTC)とグローバル時間文脈(GTC)。
LTCの統一表現を学習するためのCFFM手法を提案する。
論文 参考訳(メタデータ) (2022-04-07T09:56:36Z) - Multi-modal Visual Place Recognition in Dynamics-Invariant Perception
Space [23.43468556831308]
このレターは、動的環境における位置認識を改善するために、意味的および視覚的モダリティのマルチモーダル融合の使用を探求する。
これを実現するには、まず静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計します。
次に,空間的ピラミドマッチングモデルを用いて,静的意味セグメンテーションを特徴ベクトルに符号化する。
並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。
論文 参考訳(メタデータ) (2021-05-17T13:14:52Z) - ClusterVO: Clustering Moving Instances and Estimating Visual Odometry
for Self and Surroundings [54.33327082243022]
ClusterVOはステレオビジュアルオドメトリーで、エゴと周囲の固いクラスタ/オブジェクトの両方の動きを同時にクラスタし、推定する。
以前のソリューションでは、バッチ入力やシーン構造や動的オブジェクトモデルへの事前の指示に頼っていたが、ClusterVOは一般的にオンラインであり、屋内のシーン理解や自律運転など、さまざまなシナリオで使用することができる。
論文 参考訳(メタデータ) (2020-03-29T09:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。