Fugu-MT 論文翻訳(概要): DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in Dynamic Environments

論文の概要: DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in Dynamic Environments

arxiv url: http://arxiv.org/abs/2209.08430v1
Date: Sat, 17 Sep 2022 23:56:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 19:31:59.052027
Title: DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in Dynamic Environments
Title（参考訳）: dytanvo: 動的環境における視覚オドメトリと運動セグメンテーションの合同改良
Authors: Shihao Shen and Yilin Cai and Wenshan Wang and Sebastian Scherer
Abstract要約: 動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。実世界の動的環境における最先端VOソリューションよりも平均27.7%向上した。
参考スコア（独自算出の注目度）: 6.5121327691369615
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Learning-based visual odometry (VO) algorithms achieve remarkable performance on common static scenes, benefiting from high-capacity models and massive annotated data, but tend to fail in dynamic, populated environments. Semantic segmentation is largely used to discard dynamic associations before estimating camera motions but at the cost of discarding static features and is hard to scale up to unseen categories. In this paper, we leverage the mutual dependence between camera ego-motion and motion segmentation and show that both can be jointly refined in a single learning-based framework. In particular, we present DytanVO, the first supervised learning-based VO method that deals with dynamic environments. It takes two consecutive monocular frames in real-time and predicts camera ego-motion in an iterative fashion. Our method achieves an average improvement of 27.7% in ATE over state-of-the-art VO solutions in real-world dynamic environments, and even performs competitively among dynamic visual SLAM systems which optimize the trajectory on the backend. Experiments on plentiful unseen environments also demonstrate our method's generalizability.
Abstract（参考訳）: 学習ベースビジュアル・オドメトリー(VO)アルゴリズムは、高容量モデルと大量の注釈付きデータの恩恵を受けながら、動的で人口密度の高い環境では失敗する傾向がある。セマンティクスセグメンテーションは、カメラの動きを推定する前にダイナミックな関連を破棄するために主に使用されるが、静的な特徴を破棄するコストがかかるため、未認識のカテゴリにスケールアップするのは難しい。本稿では,カメラエゴモーションとモーションセグメンテーションの相互依存性を活用し,単一学習ベースで協調的に両者を洗練できることを示す。特に,動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。 2つの連続した単眼フレームをリアルタイムで取得し、反復的にカメラのエゴモーションを予測する。本手法は,現実の動的環境における最先端VOソリューションよりも平均27.7%向上し,バックエンド上での軌跡を最適化する動的視覚SLAMシステムと競合する性能を実現している。また,本手法の一般化可能性を示す実験も行った。

関連論文リスト

ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation [9.964615076037397]
ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T02:29:51Z)
DynaVINS++: Robust Visual-Inertial State Estimator in Dynamic Environments by Adaptive Truncated Least Squares and Stable State Recovery [11.37707868611451]
我々はmboxtextitDynaVINS++と呼ばれる堅牢なVINSフレームワークを提案する。我々のアプローチは、突然の動的オブジェクトを含む動的環境における有望なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-20T12:13:45Z)
Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective [10.938290904843939]
本稿では,動的セマンティクスと静的セマンティクスの両方を疎結合で捉えるために,解答と干渉を伴う学習力学の双レベル最適化(BOLD-DI)を提案する。提案手法は既存のv-CL手法とシームレスに統合でき, 実験結果から重要な改善点が示された。
論文参考訳（メタデータ） (2024-07-19T06:53:54Z)
Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。動的環境のための新しいSLAMフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-18T09:35:48Z)
EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文参考訳（メタデータ） (2024-06-28T10:39:36Z)
Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。 HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文参考訳（メタデータ） (2024-04-21T02:21:30Z)
Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:03:23Z)
DynPL-SVO: A Robust Stereo Visual Odometry for Dynamic Scenes [10.257520572384067]
特徴量に基づくステレオ・ビジュアル・オドメトリーのアプローチは、ステレオ画像の列に沿った点特徴のマッチングと追跡によって移動ロボットの動きを推定する。本稿では,一致点特徴と直線特徴の向きに垂直な再投影誤差の情報を統合した,完全な動的SVO手法であるDynPL-SVOを提案する。
論文参考訳（メタデータ） (2022-05-17T10:08:03Z)
Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文参考訳（メタデータ） (2021-04-15T17:59:32Z)
HyperDynamics: Meta-Learning Object and Agent Dynamics with Hypernetworks [18.892883695539002]
HyperDynamicsは、ニューラルネットワークモデルのパラメータを生成する動的メタ学習フレームワークである。高次元の視覚観察でダイナミクスを学習することで、環境の変化に適応する既存のモデルを上回る性能を発揮します。本手法は,個別に訓練された専門家の演奏に合致すると同時に,テスト時に未知の環境変動に対して十分に一般化できることを示す。
論文参考訳（メタデータ） (2021-03-17T04:48:43Z)
Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。 2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-11T04:20:30Z)
ClusterVO: Clustering Moving Instances and Estimating Visual Odometry for Self and Surroundings [54.33327082243022]
ClusterVOはステレオビジュアルオドメトリーで、エゴと周囲の固いクラスタ/オブジェクトの両方の動きを同時にクラスタし、推定する。以前のソリューションでは、バッチ入力やシーン構造や動的オブジェクトモデルへの事前の指示に頼っていたが、ClusterVOは一般的にオンラインであり、屋内のシーン理解や自律運転など、さまざまなシナリオで使用することができる。
論文参考訳（メタデータ） (2020-03-29T09:06:28Z)
FlowFusion: Dynamic Dense RGB-D SLAM Based on Optical Flow [17.040818114071833]
ダイナミック/静的セグメンテーションとカメラのエゴモーション推定を同時に実現する新しいRGB-D SLAMソリューションを提案する。我々の新しい特徴は、RGB-D点雲のダイナミックセマンティクスを強調するために光学フロー残基を使うことである。
論文参考訳（メタデータ） (2020-03-11T04:00:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。