論文の概要: Unified Perception: Efficient Depth-Aware Video Panoptic Segmentation
with Minimal Annotation Costs
- arxiv url: http://arxiv.org/abs/2303.01991v2
- Date: Sun, 2 Apr 2023 17:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 21:11:08.155709
- Title: Unified Perception: Efficient Depth-Aware Video Panoptic Segmentation
with Minimal Annotation Costs
- Title(参考訳): Unified Perception:最小アノテーションコストによる高効率深度対応ビデオパノプティクスセグメンテーション
- Authors: Kurt Stolle and Gijs Dubbelman
- Abstract要約: ビデオベースのトレーニングを必要とせずに最先端のパフォーマンスを実現するための,Unified Perceptionという新しいアプローチを提案する。
本手法では,画像ベースネットワークで計算されたオブジェクトの埋め込みを (再) 利用する,単純な2段階のカスケード追跡アルゴリズムを用いる。
- 参考スコア(独自算出の注目度): 2.7920304852537536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth-aware video panoptic segmentation is a promising approach to camera
based scene understanding. However, the current state-of-the-art methods
require costly video annotations and use a complex training pipeline compared
to their image-based equivalents. In this paper, we present a new approach
titled Unified Perception that achieves state-of-the-art performance without
requiring video-based training. Our method employs a simple two-stage cascaded
tracking algorithm that (re)uses object embeddings computed in an image-based
network. Experimental results on the Cityscapes-DVPS dataset demonstrate that
our method achieves an overall DVPQ of 57.1, surpassing state-of-the-art
methods. Furthermore, we show that our tracking strategies are effective for
long-term object association on KITTI-STEP, achieving an STQ of 59.1 which
exceeded the performance of state-of-the-art methods that employ the same
backbone network.
Code is available at: https://tue-mps.github.io/unipercept
- Abstract(参考訳): 深度対応ビデオパノプティクスセグメンテーションは、カメラベースのシーン理解への有望なアプローチである。
しかし、現在の最先端の方法には高価なビデオアノテーションが必要であり、画像ベースのものに比べて複雑なトレーニングパイプラインを使用する。
本稿では,映像ベースのトレーニングを必要とせず,最先端のパフォーマンスを実現するUnified Perceptionという新しいアプローチを提案する。
本手法は,画像ベースのネットワークで計算された物体の埋め込みを(再)利用する単純な2段階カスケード追跡アルゴリズムを用いる。
Cityscapes-DVPSデータセットの実験結果から,本手法は57.1のDVPQを達成し,最先端の手法を超越した。
さらに,我々の追跡戦略はkitti-stepにおける長期オブジェクトアソシエーションに有効であることを示し,同じバックボーンネットワークを用いた最先端メソッドのパフォーマンスを上回った59.1のstqを達成した。
コードは、https://tue-mps.github.io/unipercept.comで入手できる。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Learning Video Salient Object Detection Progressively from Unlabeled
Videos [8.224670666756193]
ビデオアノテーションを使わずに、適切なオブジェクトを連続的に特定・セグメントするプログレッシブフレームワークによる新しいVSOD手法を提案する。
具体的には, 隣接フレームにおける高精度な位置ラベルの生成と有意な物体の追跡を行うディープテンポラルな位置ラベルを生成するアルゴリズムを提案する。
DAVIS, FBMS, ViSal, VOS, DAVSODの5つの公開ベンチマークによる実験結果から, 提案手法は完全教師付き手法と競合し, 最先端・非教師付き手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-04-05T06:12:45Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。