論文の概要: Exploiting Spatial-Temporal Semantic Consistency for Video Scene Parsing
- arxiv url: http://arxiv.org/abs/2109.02281v1
- Date: Mon, 6 Sep 2021 08:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:34:22.234633
- Title: Exploiting Spatial-Temporal Semantic Consistency for Video Scene Parsing
- Title(参考訳): 映像シーン解析のための空間的意味的一貫性の爆発的展開
- Authors: Xingjian He, Weining Wang, Zhiyong Xu, Hao Wang, Jie Jiang, Jing Liu
- Abstract要約: 本稿では,クラス排他的コンテキスト情報を取得するための空間時間意味一貫性手法を提案する。
具体的には、空間的・時間的次元における意味的一貫性を制約する空間的・時間的整合性損失を設計する。
ICCV 2021でVSPWチャレンジで優勝した。
- 参考スコア(独自算出の注目度): 11.848929625911575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with image scene parsing, video scene parsing introduces temporal
information, which can effectively improve the consistency and accuracy of
prediction. In this paper, we propose a Spatial-Temporal Semantic Consistency
method to capture class-exclusive context information. Specifically, we design
a spatial-temporal consistency loss to constrain the semantic consistency in
spatial and temporal dimensions. In addition, we adopt an pseudo-labeling
strategy to enrich the training dataset. We obtain the scores of 59.84% and
58.85% mIoU on development (test part 1) and testing set of VSPW, respectively.
And our method wins the 1st place on VSPW challenge at ICCV2021.
- Abstract(参考訳): 画像シーン解析と比較すると,映像シーン解析は時間的情報を導入し,予測の一貫性と精度を効果的に向上させる。
本稿では,クラス排他的コンテキスト情報をキャプチャする空間時間意味一貫性手法を提案する。
具体的には,空間的および時間的次元における意味的一貫性を制約する空間的時間的一貫性損失を設計する。
さらに,トレーニングデータセットを充実させるために擬似ラベル戦略を採用する。
59.84%と58.85%のmIoUをそれぞれ開発(テストパート1)とVSPWのテストセットで取得した。
また,本手法はICCV2021でVSPWチャレンジで1位を獲得した。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - A Two-Stage Adverse Weather Semantic Segmentation Method for WeatherProof Challenge CVPR 2024 Workshop UG2+ [10.069192320623031]
We propose a two-stage Deep Learning framework for the WeatherProof dataset Challenge。
この課題では,mIoU(Mean Intersection over Union)測定値で0.43の競争スコアを達成し,上位4位を確保した。
論文 参考訳(メタデータ) (2024-06-08T16:22:26Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Semantic Segmentation on VSPW Dataset through Contrastive Loss and
Multi-dataset Training Approach [7.112725255953468]
本稿では,ビデオセマンティックセグメンテーションのためのCVPR2023ワークショップの優勝ソリューションを提案する。
CVPR 2023では,VSPWデータセットの65.95%mIoU性能が第一位にランクされた。
論文 参考訳(メタデータ) (2023-06-06T08:53:53Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。