Fugu-MT 論文翻訳(概要): GMS-VINS:Multi-category Dynamic Objects Semantic Segmentation for Enhanced Visual-Inertial Odometry Using a Promptable Foundation Model

論文の概要: GMS-VINS:Multi-category Dynamic Objects Semantic Segmentation for Enhanced Visual-Inertial Odometry Using a Promptable Foundation Model

arxiv url: http://arxiv.org/abs/2411.19289v1
Date: Thu, 28 Nov 2024 17:41:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.847529
Title: GMS-VINS:Multi-category Dynamic Objects Semantic Segmentation for Enhanced Visual-Inertial Odometry Using a Promptable Foundation Model
Title（参考訳）: GMS-VINS:Promptable Foundation Modelを用いた拡張視覚慣性オドメトリーのための多カテゴリ動的オブジェクトセマンティックセグメンテーション
Authors: Rui Zhou, Jingbin Liu, Junbin Xie, Jianyu Zhang, Yingze Hu, Jiele Zhao,
Abstract要約: 我々は、強化SORTアルゴリズムと堅牢な多カテゴリセグメンテーションフレームワークを統合したGMS-VINSを視覚慣性オドメトリー(VIO)に導入する。拡張SORTアルゴリズムは、複数の動的オブジェクトを追跡する信頼性を大幅に向上する。提案手法は,複数のシナリオにおいて,他の最先端手法よりも優れた性能を示す。
参考スコア（独自算出の注目度）: 7.07379964916809
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual-inertial odometry (VIO) is widely used in various fields, such as robots, drones, and autonomous vehicles, due to its low cost and complementary sensors. Most VIO methods presuppose that observed objects are static and time-invariant. However, real-world scenes often feature dynamic objects, compromising the accuracy of pose estimation. These moving entities include cars, trucks, buses, motorcycles, and pedestrians. The diversity and partial occlusion of these objects present a tough challenge for existing dynamic object removal techniques. To tackle this challenge, we introduce GMS-VINS, which integrates an enhanced SORT algorithm along with a robust multi-category segmentation framework into VIO, thereby improving pose estimation accuracy in environments with diverse dynamic objects and frequent occlusions. Leveraging the promptable foundation model, our solution efficiently tracks and segments a wide range of object categories. The enhanced SORT algorithm significantly improves the reliability of tracking multiple dynamic objects, especially in urban settings with partial occlusions or swift movements. We evaluated our proposed method using multiple public datasets representing various scenes, as well as in a real-world scenario involving diverse dynamic objects. The experimental results demonstrate that our proposed method performs impressively in multiple scenarios, outperforming other state-of-the-art methods. This highlights its remarkable generalization and adaptability in diverse dynamic environments, showcasing its potential to handle various dynamic objects in practical applications.
Abstract（参考訳）: 視覚慣性オドメトリー(VIO)は、低コストで補完的なセンサーのため、ロボット、ドローン、自動運転車などの様々な分野で広く使われている。ほとんどのVIOメソッドは、観測対象が静的で時間不変であると仮定する。しかし、現実世界のシーンは、しばしば動的オブジェクトを特徴とし、ポーズ推定の精度を損なう。これらの移動機関には、車、トラック、バス、オートバイ、歩行者が含まれる。これらのオブジェクトの多様性と部分的閉塞は、既存の動的オブジェクト除去技術にとって難しい課題である。この課題に対処するために,拡張SORTアルゴリズムと堅牢な多カテゴリセグメンテーションフレームワークを組み込んだGMS-VINSを導入し,多様な動的オブジェクトと頻繁なオクルージョンを持つ環境におけるポーズ推定精度を向上させる。ファウンデーションモデルを活用することで、我々のソリューションは、広範囲のオブジェクトカテゴリを効率的に追跡し、セグメント化する。拡張SORTアルゴリズムは、特に部分閉塞や急速移動を伴う都市環境において、複数の動的物体の追跡の信頼性を著しく向上する。提案手法は,様々な場面を表わす複数の公開データセットを用いて評価し,多様な動的オブジェクトを含む現実シナリオで評価した。実験の結果,提案手法は複数のシナリオにおいて優れた性能を示し,他の最先端手法よりも優れていた。これは、様々な動的環境における顕著な一般化と適応性を強調し、実用的なアプリケーションで様々な動的オブジェクトを扱う可能性を示している。

関連論文リスト

Asset-Driven Sematic Reconstruction of Dynamic Scene with Multi-Human-Object Interactions [41.29588736908775]
ダイナミックシーンの3Dジオメトリモデリングは、AR/VR、ゲーム、エンボディAIといったアプリケーションに不可欠である。本研究では,1)シーン要素の高忠実度メッシュを生成するための3次元生成モデルの利点と,2)シーン要素のセマンティック・アウェアな変形,3)GSに基づく個々の要素の最適化の利点を組み合わせたハイブリッドアプローチを提案する。本手法は,これらのシーンのより優れた表面再構成を実現する上で,最先端の手法よりも優れる。
論文参考訳（メタデータ） (2025-11-29T16:36:22Z)
Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。 StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-11-13T17:39:06Z)
MTGS: Multi-Traversal Gaussian Splatting [51.22657444433942]
マルチトラバースデータは、道路ブロック内のシーン再構築のための複数の視点を提供する。任意に収集したマルチトラバーサルデータから高品質な運転シーンを再構成する新しい手法であるマルチトラバーサル・ガウス・スプラッティング(MTGS)を提案する。その結果、MTGSはLPIPSを23.5%改善し、幾何学的精度は46.3%向上した。
論文参考訳（メタデータ） (2025-03-16T15:46:12Z)
UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction [86.4386398262018]
UrbanGSは2Dセマンティックマップと既存の動的ガウスアプローチを使って静的オブジェクトとシーンを区別する。動的オブジェクトに対して、学習可能な時間埋め込みを用いて時間情報を集約する。提案手法は, 修復の質と効率性において, 最先端の手法より優れている。
論文参考訳（メタデータ） (2024-12-04T16:59:49Z)
DynaVINS++: Robust Visual-Inertial State Estimator in Dynamic Environments by Adaptive Truncated Least Squares and Stable State Recovery [11.37707868611451]
我々はmboxtextitDynaVINS++と呼ばれる堅牢なVINSフレームワークを提案する。我々のアプローチは、突然の動的オブジェクトを含む動的環境における有望なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-20T12:13:45Z)
OmniRe: Omni Urban Scene Reconstruction [78.99262488964423]
OmniReはデバイス上でのログから動的現実シーンの高忠実なデジタルツインを作成するための総合システムである。提案手法は3DGS上にシーングラフを構築し,様々な動的アクターをモデル化する標準空間内に複数のガウス表現を構築する。
論文参考訳（メタデータ） (2024-08-29T17:56:33Z)
DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments [28.23284296418962]
Zero-Shot Object Navigation (ZSON)は、エージェントが不慣れな環境で見えないオブジェクトを自律的に見つけ、アプローチすることを要求する。 ZSONアルゴリズムを開発するための既存のデータセットには、動的な障害、オブジェクトの多様性、シーンテキストが考慮されていない。動的環境(DOZE)におけるオープンボキャブラリゼロショットオブジェクトナビゲーションのためのデータセットを提案する。 DOZEは18k以上のタスクを持つ10の高忠実な3Dシーンで構成されており、複雑な動的現実世界のシナリオを模倣することを目的としている。
論文参考訳（メタデータ） (2024-02-29T10:03:57Z)
Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文参考訳（メタデータ） (2024-02-28T16:16:51Z)
Clustering in Dynamic Environments: A Framework for Benchmark Dataset Generation With Heterogeneous Changes [11.56518009058007]
動的環境におけるクラスタリングは、リアルタイムデータ分析やオンライン教師なし学習から動的施設配置問題まで幅広い応用において、重要性が増している。静的クラスタリングタスクでは,メタヒューリスティックスが有望な有効性を示している。これは、さまざまな動的シナリオにおけるクラスタリングアルゴリズムの体系的なパフォーマンス評価を妨げる、多様な、制御可能な、現実的な動的特性を備えた動的データセットの欠如による部分もある。この欠陥は、動的環境におけるクラスタリングのアルゴリズムを効果的に設計する私たちの理解と能力のギャップにつながる。
論文参考訳（メタデータ） (2024-02-24T05:49:27Z)
ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2023-10-31T06:11:23Z)
Dynamic-Resolution Model Learning for Object Pile Manipulation [33.05246884209322]
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。具体的には、環境の動的分解能粒子表現を構築し、グラフニューラルネットワーク(GNN)を用いた統一力学モデルを学ぶ。本手法は, 粒状オブジェクトの収集, ソート, 再分配において, 最先端の固定解像度ベースラインよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2023-06-29T05:51:44Z)
Vector Autoregressive Evolution for Dynamic Multi-Objective Optimisation [7.5104598146227]
動的多目的最適化(DMO)は、様々な環境において複数の目的を持つ最適化問題を扱う。本稿では,DMOの環境変化に対応するために,ベクトル自己回帰(VAR)と環境対応ハイパーミューテーションからなるベクトル自己回帰進化(VARE)を提案する。
論文参考訳（メタデータ） (2023-05-22T06:24:25Z)
Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文参考訳（メタデータ） (2023-04-18T13:55:24Z)
Learning Robust Dynamics through Variational Sparse Gating [18.476155786474358]
多くのオブジェクトを持つ環境では、少数のオブジェクトが同時に動いたり相互作用したりしているのが普通です。本稿では,このスパース相互作用の帰納バイアスを,画素から学習した世界モデルの潜在ダイナミクスに統合する。
論文参考訳（メタデータ） (2022-10-21T02:56:51Z)
Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。 AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文参考訳（メタデータ） (2022-03-22T03:33:27Z)
ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文参考訳（メタデータ） (2022-03-14T04:56:55Z)
TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and Reconstruction [57.1209039399599]
我々は,シーン全体とその中のすべてのオブジェクトに対して,単一のボリュームを維持できるマップ表現を提案する。複数の動的オブジェクト追跡および再構成シナリオにおいて,本表現は,近接して移動する他のオブジェクトによって一時的にオクルードされても,表面の正確な再構成を維持できる。提案したTSDF++の定式化を公開合成データセット上で評価し,標準のTSDFマップ表現と比較した場合の閉塞面の復元性を示す。
論文参考訳（メタデータ） (2021-05-16T16:15:05Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
RP-VIO: Robust Plane-based Visual-Inertial Odometry for Dynamic Environments [14.260575326111585]
動的環境のための最先端のビジュアル慣性オドメトリーシステムRP-VIOについて述べる。また,現代のvinsシステムの能力をより効果的に評価するために,高ダイナミックでフォトリアリスティックな合成データセットを提案する。
論文参考訳（メタデータ） (2021-03-18T17:33:07Z)
DOT: Dynamic Object Tracking for Visual SLAM [83.69544718120167]
DOTはインスタンスセグメンテーションとマルチビュー幾何を組み合わせて、動的オブジェクトのマスクを生成する。実際にどのオブジェクトが動いているかを判断するために、DOTは、潜在的にダイナミックなオブジェクトの最初のインスタンスを抽出し、次に推定されたカメラモーションで、測光再投射誤差を最小限にして、そのようなオブジェクトを追跡する。提案手法はORB-SLAM 2の精度とロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2020-09-30T18:36:28Z)
Multi-object Monocular SLAM for Dynamic Environments [12.537311048732017]
マルチボディ(multibody)という言葉は、カメラの動きと、シーン内の他のダイナミックな参加者の動きを追跡することを意味する。既存のアプローチは制限された問題の変種を解くが、解は相対的なスケールの曖昧さに悩まされる。本稿では,相対的および絶対的スケール係数の曖昧さを解決するために,多ポーズグラフ最適化の定式化を提案する。
論文参考訳（メタデータ） (2020-02-10T03:49:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。