論文の概要: DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in
Dynamic Environments
- arxiv url: http://arxiv.org/abs/2209.08430v1
- Date: Sat, 17 Sep 2022 23:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:31:59.052027
- Title: DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in
Dynamic Environments
- Title(参考訳): dytanvo: 動的環境における視覚オドメトリと運動セグメンテーションの合同改良
- Authors: Shihao Shen and Yilin Cai and Wenshan Wang and Sebastian Scherer
- Abstract要約: 動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。
実世界の動的環境における最先端VOソリューションよりも平均27.7%向上した。
- 参考スコア(独自算出の注目度): 6.5121327691369615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning-based visual odometry (VO) algorithms achieve remarkable performance
on common static scenes, benefiting from high-capacity models and massive
annotated data, but tend to fail in dynamic, populated environments. Semantic
segmentation is largely used to discard dynamic associations before estimating
camera motions but at the cost of discarding static features and is hard to
scale up to unseen categories. In this paper, we leverage the mutual dependence
between camera ego-motion and motion segmentation and show that both can be
jointly refined in a single learning-based framework. In particular, we present
DytanVO, the first supervised learning-based VO method that deals with dynamic
environments. It takes two consecutive monocular frames in real-time and
predicts camera ego-motion in an iterative fashion. Our method achieves an
average improvement of 27.7% in ATE over state-of-the-art VO solutions in
real-world dynamic environments, and even performs competitively among dynamic
visual SLAM systems which optimize the trajectory on the backend. Experiments
on plentiful unseen environments also demonstrate our method's
generalizability.
- Abstract(参考訳): 学習ベースビジュアル・オドメトリー(VO)アルゴリズムは、高容量モデルと大量の注釈付きデータの恩恵を受けながら、動的で人口密度の高い環境では失敗する傾向がある。
セマンティクスセグメンテーションは、カメラの動きを推定する前にダイナミックな関連を破棄するために主に使用されるが、静的な特徴を破棄するコストがかかるため、未認識のカテゴリにスケールアップするのは難しい。
本稿では,カメラエゴモーションとモーションセグメンテーションの相互依存性を活用し,単一学習ベースで協調的に両者を洗練できることを示す。
特に,動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。
2つの連続した単眼フレームをリアルタイムで取得し、反復的にカメラのエゴモーションを予測する。
本手法は,現実の動的環境における最先端VOソリューションよりも平均27.7%向上し,バックエンド上での軌跡を最適化する動的視覚SLAMシステムと競合する性能を実現している。
また,本手法の一般化可能性を示す実験も行った。
関連論文リスト
- Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - DynPL-SVO: A Robust Stereo Visual Odometry for Dynamic Scenes [10.257520572384067]
特徴量に基づくステレオ・ビジュアル・オドメトリーのアプローチは、ステレオ画像の列に沿った点特徴のマッチングと追跡によって移動ロボットの動きを推定する。
本稿では,一致点特徴と直線特徴の向きに垂直な再投影誤差の情報を統合した,完全な動的SVO手法であるDynPL-SVOを提案する。
論文 参考訳(メタデータ) (2022-05-17T10:08:03Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - HyperDynamics: Meta-Learning Object and Agent Dynamics with
Hypernetworks [18.892883695539002]
HyperDynamicsは、ニューラルネットワークモデルのパラメータを生成する動的メタ学習フレームワークである。
高次元の視覚観察でダイナミクスを学習することで、環境の変化に適応する既存のモデルを上回る性能を発揮します。
本手法は,個別に訓練された専門家の演奏に合致すると同時に,テスト時に未知の環境変動に対して十分に一般化できることを示す。
論文 参考訳(メタデータ) (2021-03-17T04:48:43Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - ClusterVO: Clustering Moving Instances and Estimating Visual Odometry
for Self and Surroundings [54.33327082243022]
ClusterVOはステレオビジュアルオドメトリーで、エゴと周囲の固いクラスタ/オブジェクトの両方の動きを同時にクラスタし、推定する。
以前のソリューションでは、バッチ入力やシーン構造や動的オブジェクトモデルへの事前の指示に頼っていたが、ClusterVOは一般的にオンラインであり、屋内のシーン理解や自律運転など、さまざまなシナリオで使用することができる。
論文 参考訳(メタデータ) (2020-03-29T09:06:28Z) - FlowFusion: Dynamic Dense RGB-D SLAM Based on Optical Flow [17.040818114071833]
ダイナミック/静的セグメンテーションとカメラのエゴモーション推定を同時に実現する新しいRGB-D SLAMソリューションを提案する。
我々の新しい特徴は、RGB-D点雲のダイナミックセマンティクスを強調するために光学フロー残基を使うことである。
論文 参考訳(メタデータ) (2020-03-11T04:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。