論文の概要: DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in
Dynamic Environments
- arxiv url: http://arxiv.org/abs/2209.08430v4
- Date: Sat, 29 Apr 2023 04:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 19:40:12.445775
- Title: DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in
Dynamic Environments
- Title(参考訳): dytanvo: 動的環境における視覚オドメトリと運動セグメンテーションの合同改良
- Authors: Shihao Shen and Yilin Cai and Wenshan Wang and Sebastian Scherer
- Abstract要約: 動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。
実世界の動的環境における最先端VOソリューションよりも平均27.7%向上した。
- 参考スコア(独自算出の注目度): 6.5121327691369615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning-based visual odometry (VO) algorithms achieve remarkable performance
on common static scenes, benefiting from high-capacity models and massive
annotated data, but tend to fail in dynamic, populated environments. Semantic
segmentation is largely used to discard dynamic associations before estimating
camera motions but at the cost of discarding static features and is hard to
scale up to unseen categories. In this paper, we leverage the mutual dependence
between camera ego-motion and motion segmentation and show that both can be
jointly refined in a single learning-based framework. In particular, we present
DytanVO, the first supervised learning-based VO method that deals with dynamic
environments. It takes two consecutive monocular frames in real-time and
predicts camera ego-motion in an iterative fashion. Our method achieves an
average improvement of 27.7% in ATE over state-of-the-art VO solutions in
real-world dynamic environments, and even performs competitively among dynamic
visual SLAM systems which optimize the trajectory on the backend. Experiments
on plentiful unseen environments also demonstrate our method's
generalizability.
- Abstract(参考訳): 学習ベースビジュアル・オドメトリー(VO)アルゴリズムは、高容量モデルと大量の注釈付きデータの恩恵を受けながら、動的で人口密度の高い環境では失敗する傾向がある。
セマンティクスセグメンテーションは、カメラの動きを推定する前にダイナミックな関連を破棄するために主に使用されるが、静的な特徴を破棄するコストがかかるため、未認識のカテゴリにスケールアップするのは難しい。
本稿では,カメラエゴモーションとモーションセグメンテーションの相互依存性を活用し,単一学習ベースで協調的に両者を洗練できることを示す。
特に,動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。
2つの連続した単眼フレームをリアルタイムで取得し、反復的にカメラのエゴモーションを予測する。
本手法は,現実の動的環境における最先端VOソリューションよりも平均27.7%向上し,バックエンド上での軌跡を最適化する動的視覚SLAMシステムと競合する性能を実現している。
また,本手法の一般化可能性を示す実験も行った。
関連論文リスト
- DynaVINS++: Robust Visual-Inertial State Estimator in Dynamic Environments by Adaptive Truncated Least Squares and Stable State Recovery [11.37707868611451]
我々はmboxtextitDynaVINS++と呼ばれる堅牢なVINSフレームワークを提案する。
我々のアプローチは、突然の動的オブジェクトを含む動的環境における有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-20T12:13:45Z) - Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective [10.938290904843939]
本稿では,動的セマンティクスと静的セマンティクスの両方を疎結合で捉えるために,解答と干渉を伴う学習力学の双レベル最適化(BOLD-DI)を提案する。
提案手法は既存のv-CL手法とシームレスに統合でき, 実験結果から重要な改善点が示された。
論文 参考訳(メタデータ) (2024-07-19T06:53:54Z) - Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。
動的環境のための新しいSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T09:35:48Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。
HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。
連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文 参考訳(メタデータ) (2024-04-21T02:21:30Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - HyperDynamics: Meta-Learning Object and Agent Dynamics with
Hypernetworks [18.892883695539002]
HyperDynamicsは、ニューラルネットワークモデルのパラメータを生成する動的メタ学習フレームワークである。
高次元の視覚観察でダイナミクスを学習することで、環境の変化に適応する既存のモデルを上回る性能を発揮します。
本手法は,個別に訓練された専門家の演奏に合致すると同時に,テスト時に未知の環境変動に対して十分に一般化できることを示す。
論文 参考訳(メタデータ) (2021-03-17T04:48:43Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - ClusterVO: Clustering Moving Instances and Estimating Visual Odometry
for Self and Surroundings [54.33327082243022]
ClusterVOはステレオビジュアルオドメトリーで、エゴと周囲の固いクラスタ/オブジェクトの両方の動きを同時にクラスタし、推定する。
以前のソリューションでは、バッチ入力やシーン構造や動的オブジェクトモデルへの事前の指示に頼っていたが、ClusterVOは一般的にオンラインであり、屋内のシーン理解や自律運転など、さまざまなシナリオで使用することができる。
論文 参考訳(メタデータ) (2020-03-29T09:06:28Z) - FlowFusion: Dynamic Dense RGB-D SLAM Based on Optical Flow [17.040818114071833]
ダイナミック/静的セグメンテーションとカメラのエゴモーション推定を同時に実現する新しいRGB-D SLAMソリューションを提案する。
我々の新しい特徴は、RGB-D点雲のダイナミックセマンティクスを強調するために光学フロー残基を使うことである。
論文 参考訳(メタデータ) (2020-03-11T04:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。