論文の概要: Improving Semantic Segmentation through Spatio-Temporal Consistency
Learned from Videos
- arxiv url: http://arxiv.org/abs/2004.05324v2
- Date: Wed, 20 May 2020 23:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 12:49:06.961416
- Title: Improving Semantic Segmentation through Spatio-Temporal Consistency
Learned from Videos
- Title(参考訳): ビデオから学ぶ時空間一貫性による意味的セグメンテーションの改善
- Authors: Ankita Pasad, Ariel Gordon, Tsung-Yi Lin, Anelia Angelova
- Abstract要約: 我々は、深度、エゴモーション、カメラの内在性に関する教師なし学習を活用して、単一画像のセマンティックセマンティックセグメンテーションを改善する。
セグメンテーションモデルにさらなる監視信号を与えるために、予測深度、エゴモーション、カメラ内在性を用いている。
- 参考スコア(独自算出の注目度): 39.25927216187176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We leverage unsupervised learning of depth, egomotion, and camera intrinsics
to improve the performance of single-image semantic segmentation, by enforcing
3D-geometric and temporal consistency of segmentation masks across video
frames. The predicted depth, egomotion, and camera intrinsics are used to
provide an additional supervision signal to the segmentation model,
significantly enhancing its quality, or, alternatively, reducing the number of
labels the segmentation model needs. Our experiments were performed on the
ScanNet dataset.
- Abstract(参考訳): 我々は,映像フレーム間のセグメンテーションマスクの3次元幾何学的・時間的一貫性を強制することにより,奥行き,エゴモーション,カメラの内在性に関する教師なし学習を活用し,単一画像セグメンテーションの性能を向上させる。
予測深度、エゴモーション、カメラ固有性は、セグメンテーションモデルに追加の監視信号を提供し、その品質を大幅に向上させるか、または、セグメンテーションモデルに必要なラベルの数を減らすために使用される。
ScanNetデータセットを用いて実験を行った。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to
Depth-aware Video Panoptic Segmentation [3.2489082010225494]
単眼深度推定とビデオパノプティックセグメンテーションを行うマルチタスクネットワークを用いた新しいソリューションを提案する。
トレーニング信号の劣化を回避するため,物体を移動させるための新しいパノプティカルマスキング方式と,パノプティカル誘導による奥行き損失を導入した。
論文 参考訳(メタデータ) (2022-10-14T07:00:42Z) - Temporally stable video segmentation without video annotations [6.184270985214255]
静止画像分割モデルを教師なしの方法でビデオに適応させる手法を提案する。
整合性尺度がヒトの判断とよく相関していることを検証する。
生成したセグメンテーションビデオの精度の低下を最小限に抑えて改善を観察する。
論文 参考訳(メタデータ) (2021-10-17T18:59:11Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - UVid-Net: Enhanced Semantic Segmentation of UAV Aerial Videos by
Embedding Temporal Information [0.0]
本研究は,ビデオセマンティックセグメンテーションの効率を向上させるため,時間情報を統合することでCNNアーキテクチャを改良する。
UAVビデオセマンティックセグメンテーションのための拡張エンコーダデコーダベースのCNNアーキテクチャ(UVid-Net)を提案する。
提案手法は,都市街路におけるUVid-Netの事前学習モデルにおいても有望な結果を得た。
論文 参考訳(メタデータ) (2020-11-29T05:01:39Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation [12.462608802359936]
動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。