論文の概要: GMS-VINS:Multi-category Dynamic Objects Semantic Segmentation for Enhanced Visual-Inertial Odometry Using a Promptable Foundation Model
- arxiv url: http://arxiv.org/abs/2411.19289v1
- Date: Thu, 28 Nov 2024 17:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:59.526214
- Title: GMS-VINS:Multi-category Dynamic Objects Semantic Segmentation for Enhanced Visual-Inertial Odometry Using a Promptable Foundation Model
- Title(参考訳): GMS-VINS:Promptable Foundation Modelを用いた拡張視覚慣性オドメトリーのための多カテゴリ動的オブジェクトセマンティックセグメンテーション
- Authors: Rui Zhou, Jingbin Liu, Junbin Xie, Jianyu Zhang, Yingze Hu, Jiele Zhao,
- Abstract要約: 我々は、強化SORTアルゴリズムと堅牢な多カテゴリセグメンテーションフレームワークを統合したGMS-VINSを視覚慣性オドメトリー(VIO)に導入する。
拡張SORTアルゴリズムは、複数の動的オブジェクトを追跡する信頼性を大幅に向上する。
提案手法は,複数のシナリオにおいて,他の最先端手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 7.07379964916809
- License:
- Abstract: Visual-inertial odometry (VIO) is widely used in various fields, such as robots, drones, and autonomous vehicles, due to its low cost and complementary sensors. Most VIO methods presuppose that observed objects are static and time-invariant. However, real-world scenes often feature dynamic objects, compromising the accuracy of pose estimation. These moving entities include cars, trucks, buses, motorcycles, and pedestrians. The diversity and partial occlusion of these objects present a tough challenge for existing dynamic object removal techniques. To tackle this challenge, we introduce GMS-VINS, which integrates an enhanced SORT algorithm along with a robust multi-category segmentation framework into VIO, thereby improving pose estimation accuracy in environments with diverse dynamic objects and frequent occlusions. Leveraging the promptable foundation model, our solution efficiently tracks and segments a wide range of object categories. The enhanced SORT algorithm significantly improves the reliability of tracking multiple dynamic objects, especially in urban settings with partial occlusions or swift movements. We evaluated our proposed method using multiple public datasets representing various scenes, as well as in a real-world scenario involving diverse dynamic objects. The experimental results demonstrate that our proposed method performs impressively in multiple scenarios, outperforming other state-of-the-art methods. This highlights its remarkable generalization and adaptability in diverse dynamic environments, showcasing its potential to handle various dynamic objects in practical applications.
- Abstract(参考訳): 視覚慣性オドメトリー(VIO)は、低コストで補完的なセンサーのため、ロボット、ドローン、自動運転車などの様々な分野で広く使われている。
ほとんどのVIOメソッドは、観測対象が静的で時間不変であると仮定する。
しかし、現実世界のシーンは、しばしば動的オブジェクトを特徴とし、ポーズ推定の精度を損なう。
これらの移動機関には、車、トラック、バス、オートバイ、歩行者が含まれる。
これらのオブジェクトの多様性と部分的閉塞は、既存の動的オブジェクト除去技術にとって難しい課題である。
この課題に対処するために,拡張SORTアルゴリズムと堅牢な多カテゴリセグメンテーションフレームワークを組み込んだGMS-VINSを導入し,多様な動的オブジェクトと頻繁なオクルージョンを持つ環境におけるポーズ推定精度を向上させる。
ファウンデーションモデルを活用することで、我々のソリューションは、広範囲のオブジェクトカテゴリを効率的に追跡し、セグメント化する。
拡張SORTアルゴリズムは、特に部分閉塞や急速移動を伴う都市環境において、複数の動的物体の追跡の信頼性を著しく向上する。
提案手法は,様々な場面を表わす複数の公開データセットを用いて評価し,多様な動的オブジェクトを含む現実シナリオで評価した。
実験の結果,提案手法は複数のシナリオにおいて優れた性能を示し,他の最先端手法よりも優れていた。
これは、様々な動的環境における顕著な一般化と適応性を強調し、実用的なアプリケーションで様々な動的オブジェクトを扱う可能性を示している。
関連論文リスト
- EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments [28.23284296418962]
Zero-Shot Object Navigation (ZSON)は、エージェントが不慣れな環境で見えないオブジェクトを自律的に見つけ、アプローチすることを要求する。
ZSONアルゴリズムを開発するための既存のデータセットには、動的な障害、オブジェクトの多様性、シーンテキストが考慮されていない。
動的環境(DOZE)におけるオープンボキャブラリゼロショットオブジェクトナビゲーションのためのデータセットを提案する。
DOZEは18k以上のタスクを持つ10の高忠実な3Dシーンで構成されており、複雑な動的現実世界のシナリオを模倣することを目的としている。
論文 参考訳(メタデータ) (2024-02-29T10:03:57Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Clustering in Dynamic Environments: A Framework for Benchmark Dataset Generation With Heterogeneous Changes [11.56518009058007]
動的環境におけるクラスタリングは、リアルタイムデータ分析やオンライン教師なし学習から動的施設配置問題まで幅広い応用において、重要性が増している。
静的クラスタリングタスクでは,メタヒューリスティックスが有望な有効性を示している。
これは、さまざまな動的シナリオにおけるクラスタリングアルゴリズムの体系的なパフォーマンス評価を妨げる、多様な、制御可能な、現実的な動的特性を備えた動的データセットの欠如による部分もある。
この欠陥は、動的環境におけるクラスタリングのアルゴリズムを効果的に設計する私たちの理解と能力のギャップにつながる。
論文 参考訳(メタデータ) (2024-02-24T05:49:27Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Learning Robust Dynamics through Variational Sparse Gating [18.476155786474358]
多くのオブジェクトを持つ環境では、少数のオブジェクトが同時に動いたり相互作用したりしているのが普通です。
本稿では,このスパース相互作用の帰納バイアスを,画素から学習した世界モデルの潜在ダイナミクスに統合する。
論文 参考訳(メタデータ) (2022-10-21T02:56:51Z) - TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and
Reconstruction [57.1209039399599]
我々は,シーン全体とその中のすべてのオブジェクトに対して,単一のボリュームを維持できるマップ表現を提案する。
複数の動的オブジェクト追跡および再構成シナリオにおいて,本表現は,近接して移動する他のオブジェクトによって一時的にオクルードされても,表面の正確な再構成を維持できる。
提案したTSDF++の定式化を公開合成データセット上で評価し,標準のTSDFマップ表現と比較した場合の閉塞面の復元性を示す。
論文 参考訳(メタデータ) (2021-05-16T16:15:05Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - RP-VIO: Robust Plane-based Visual-Inertial Odometry for Dynamic
Environments [14.260575326111585]
動的環境のための最先端のビジュアル慣性オドメトリーシステムRP-VIOについて述べる。
また,現代のvinsシステムの能力をより効果的に評価するために,高ダイナミックでフォトリアリスティックな合成データセットを提案する。
論文 参考訳(メタデータ) (2021-03-18T17:33:07Z) - DOT: Dynamic Object Tracking for Visual SLAM [83.69544718120167]
DOTはインスタンスセグメンテーションとマルチビュー幾何を組み合わせて、動的オブジェクトのマスクを生成する。
実際にどのオブジェクトが動いているかを判断するために、DOTは、潜在的にダイナミックなオブジェクトの最初のインスタンスを抽出し、次に推定されたカメラモーションで、測光再投射誤差を最小限にして、そのようなオブジェクトを追跡する。
提案手法はORB-SLAM 2の精度とロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-09-30T18:36:28Z) - Multi-object Monocular SLAM for Dynamic Environments [12.537311048732017]
マルチボディ(multibody)という言葉は、カメラの動きと、シーン内の他のダイナミックな参加者の動きを追跡することを意味する。
既存のアプローチは制限された問題の変種を解くが、解は相対的なスケールの曖昧さに悩まされる。
本稿では,相対的および絶対的スケール係数の曖昧さを解決するために,多ポーズグラフ最適化の定式化を提案する。
論文 参考訳(メタデータ) (2020-02-10T03:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。