論文の概要: PVO: Panoptic Visual Odometry
- arxiv url: http://arxiv.org/abs/2207.01610v1
- Date: Mon, 4 Jul 2022 17:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 16:23:38.907027
- Title: PVO: Panoptic Visual Odometry
- Title(参考訳): PVO:Panoptic Visual Odometry
- Authors: Weicai Ye, Xinyue Lan, Shuo Chen, Yuhang Ming, Xingyuan Yu, Hujun Bao,
Zhaopeng Cui, Guofeng Zhang
- Abstract要約: PVOは、統合されたビューで、ビジュアル・オドメトリー(VO)とビデオ・パノプティクス・セグメンテーション(VPS)をモデル化する。
PVOは、ビジュアル・オドメトリーとビデオ・パノプティクス・セグメンテーションの両方において最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 31.98591044171081
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel panoptic visual odometry framework, termed PVO, to achieve
a more comprehensive modeling of the scene's motion, geometry, and panoptic
segmentation information. PVO models visual odometry (VO) and video panoptic
segmentation (VPS) in a unified view, enabling the two tasks to facilitate each
other. Specifically, we introduce a panoptic update module into the VO module,
which operates on the image panoptic segmentation. This Panoptic-Enhanced VO
module can trim the interference of dynamic objects in the camera pose
estimation by adjusting the weights of optimized camera poses. On the other
hand, the VO-Enhanced VPS module improves the segmentation accuracy by fusing
the panoptic segmentation result of the current frame on the fly to the
adjacent frames, using geometric information such as camera pose, depth, and
optical flow obtained from the VO module. These two modules contribute to each
other through a recurrent iterative optimization. Extensive experiments
demonstrate that PVO outperforms state-of-the-art methods in both visual
odometry and video panoptic segmentation tasks. Code and data are available on
the project webpage: \urlstyle{tt}
\textcolor{url_color}{\url{https://zju3dv.github.io/pvo/}}.
- Abstract(参考訳): 本稿では,シーンの動き,形状,パンオプティカルセグメンテーション情報をより包括的にモデル化するために,pvoと呼ばれる新しいパンオプティカルビジュアルオドメトリフレームワークを提案する。
pvoは、視覚オドメトリ(vo)とビデオパノプティックセグメンテーション(vps)を統一ビューでモデル化し、2つのタスクが相互に容易になるようにした。
具体的には、イメージpanopticセグメンテーションで動作するvoモジュールにpanoptic updateモジュールを導入する。
このPanoptic-Enhanced VOモジュールは、最適化されたカメラポーズの重みを調整することで、カメラポーズ推定における動的オブジェクトの干渉をトリムすることができる。
一方、VO強化VPSモジュールは、VOモジュールから得られるカメラポーズ、深さ、光学フローなどの幾何学的情報を用いて、現在のフレームのパノプティックセグメンテーション結果を隣接するフレームに融合することにより、セグメンテーション精度を向上させる。
これら2つのモジュールは反復最適化によって相互に寄与する。
広汎な実験により、PVOは視覚計測とビデオパノプティクスのセグメンテーションの両方において最先端の手法より優れていることが示された。
コードとデータはプロジェクトwebページにある。 \urlstyle{tt} \textcolor{url_color}{\url{https://zju3dv.github.io/pvo/}}。
関連論文リスト
- DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - Out of the Room: Generalizing Event-Based Dynamic Motion Segmentation
for Complex Scenes [10.936350433952668]
モーションセグメンテーション(Motion segmentation)とも呼ばれる動的シーン部品の迅速かつ信頼性の高い識別は、モバイルセンサーにとって重要な課題である。
イベントカメラはこれらの制限を克服する可能性があるが、それに対応する方法は小規模の屋内環境でのみ実証されている。
本研究は,複雑な大規模屋外環境にも展開可能な,クラスに依存しない動作セグメンテーションのイベントベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T14:59:34Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Curved Diffusion: A Generative Model With Optical Geometry Control [56.24220665691974]
最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。
本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T13:06:48Z) - A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video
Salient Object Detection [5.207048071888257]
本研究では,パノラマ映像の空間的流れとそれに対応する光学的流れを利用する時空間二重モード混合流れネットワーク(STDMMF-Net)を提案する。
多くの主観的および客観的な実験結果から,提案手法が最先端(SOTA)法よりも優れた検出精度を示すことが確認された。
提案手法の総合性能は, モデル推論, テスト時間, 複雑性, 一般化性能に要求されるメモリの点で優れている。
論文 参考訳(メタデータ) (2023-10-13T11:25:41Z) - Time-Space Transformers for Video Panoptic Segmentation [3.2489082010225494]
画素レベルのセマンティックスとクリップレベルのインスタンスセグメンテーションを同時に予測する手法を提案する。
我々のネットワークはVPS-Transformerと呼ばれ、単一フレームのパノプティクスセグメンテーションのための畳み込みアーキテクチャと、純粋なTransformerブロックのインスタンス化に基づくビデオモジュールを組み合わせる。
論文 参考訳(メタデータ) (2022-10-07T13:30:11Z) - DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in
Dynamic Environments [6.5121327691369615]
動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。
実世界の動的環境における最先端VOソリューションよりも平均27.7%向上した。
論文 参考訳(メタデータ) (2022-09-17T23:56:03Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - MBA-VO: Motion Blur Aware Visual Odometry [99.56896875807635]
運動のぼかしは視覚計測法に残る主要な課題の1つである。
露光時間が長い低照度条件では、比較的遅いカメラの動きでも動きのぼやけが現れます。
露光時間内にカメラの局所軌道をモデル化し,推定する,直接的なアプローチによる新しいハイブリッド視覚オドメトリーパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-25T09:02:56Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。