論文の概要: Self-supervised Human Detection and Segmentation via Multi-view
Consensus
- arxiv url: http://arxiv.org/abs/2012.05119v1
- Date: Wed, 9 Dec 2020 15:47:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:01:18.836799
- Title: Self-supervised Human Detection and Segmentation via Multi-view
Consensus
- Title(参考訳): マルチビューコンセンサスによる自己教師付き人間検出とセグメンテーション
- Authors: Isinsu Katircioglu, Helge Rhodin, J\"org Sp\"orri, Mathieu Salzmann,
Pascal Fua
- Abstract要約: 本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
- 参考スコア(独自算出の注目度): 116.92405645348185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised detection and segmentation of foreground objects in complex
scenes is gaining attention as their fully-supervised counterparts require
overly large amounts of annotated data to deliver sufficient accuracy in
domain-specific applications. However, existing self-supervised approaches
predominantly rely on restrictive assumptions on appearance and motion, which
precludes their use in scenes depicting highly dynamic activities or involve
camera motion.
To mitigate this problem, we propose using a multi-camera framework in which
geometric constraints are embedded in the form of multi-view consistency during
training via coarse 3D localization in a voxel grid and fine-grained offset
regression. In this manner, we learn a joint distribution of proposals over
multiple views. At inference time, our method operates on single RGB images.
We show that our approach outperforms state-of-the-art self-supervised person
detection and segmentation techniques on images that visually depart from those
of standard benchmarks, as well as on those of the classical Human3.6M dataset.
- Abstract(参考訳): 複雑なシーンにおけるフォアグラウンドオブジェクトの自己教師付き検出とセグメンテーションが注目されている。
しかし、既存の自己監督アプローチは、外観や動きに制限のある仮定に主に依存しており、非常にダイナミックな動きやカメラの動きを描写する場面での使用を妨げている。
この問題を解決するために,voxelグリッド内の粗い3次元位置推定と細粒度オフセット回帰によるトレーニング中に,幾何学的制約をマルチビュー一貫性の形で埋め込むマルチカメラフレームワークを提案する。
この方法で、複数のビューにわたる提案の共有分布を学習する。
推測時,本手法は単一のRGB画像で動作する。
本手法は,従来のヒト3.6mデータセットと同様に,標準ベンチマーク画像から視覚的に逸脱した画像に対して,最先端の自己教師付き人物検出とセグメンテーション技術よりも優れていることを示す。
関連論文リスト
- DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Instance Segmentation with Cross-Modal Consistency [13.524441194366544]
本稿では,複数センサモードの測定を協調的に活用するインスタンスセグメンテーションへの新しいアプローチを提案する。
本手法は, センサ・モダリティと時間領域の両面において, 現場の点に対してコントラスト学習を適用した。
この定式化は、視点の変化に不変な埋め込みを学ぶことをモデルに促すことを実証する。
論文 参考訳(メタデータ) (2022-10-14T21:17:19Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Self-Supervised Monocular Depth Estimation: Solving the Dynamic Object
Problem by Semantic Guidance [36.73303869405764]
自己監督型単眼深度推定は, 単一カメラ画像から3次元シーン情報を得る強力な方法を示す。
本稿では,移動型動的クラス(DC)オブジェクトを扱うための自己教師付き意味誘導深度推定(SGDepth)手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T09:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。