論文の概要: Towards Global Localization using Multi-Modal Object-Instance Re-Identification
- arxiv url: http://arxiv.org/abs/2409.12002v1
- Date: Wed, 18 Sep 2024 14:15:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:24:06.798547
- Title: Towards Global Localization using Multi-Modal Object-Instance Re-Identification
- Title(参考訳): マルチモーダルオブジェクトインスタンス再同定によるグローバルなローカライゼーションに向けて
- Authors: Aneesh Chavan, Vaibhav Agrawal, Vineeth Bhat, Sarthak Chittawar, Siddharth Srivastava, Chetan Arora, K Madhava Krishna,
- Abstract要約: マルチモーダルRGBと深度情報を統合した新しい再同定トランスフォーマアーキテクチャを提案する。
照明条件が異なったり散らかったりしたシーンにおけるReIDの改善を実演する。
また、正確なカメラのローカライゼーションを可能にするReIDベースのローカライゼーションフレームワークを開発し、異なる視点で識別を行う。
- 参考スコア(独自算出の注目度): 23.764646800085977
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Re-identification (ReID) is a critical challenge in computer vision, predominantly studied in the context of pedestrians and vehicles. However, robust object-instance ReID, which has significant implications for tasks such as autonomous exploration, long-term perception, and scene understanding, remains underexplored. In this work, we address this gap by proposing a novel dual-path object-instance re-identification transformer architecture that integrates multimodal RGB and depth information. By leveraging depth data, we demonstrate improvements in ReID across scenes that are cluttered or have varying illumination conditions. Additionally, we develop a ReID-based localization framework that enables accurate camera localization and pose identification across different viewpoints. We validate our methods using two custom-built RGB-D datasets, as well as multiple sequences from the open-source TUM RGB-D datasets. Our approach demonstrates significant improvements in both object instance ReID (mAP of 75.18) and localization accuracy (success rate of 83% on TUM-RGBD), highlighting the essential role of object ReID in advancing robotic perception. Our models, frameworks, and datasets have been made publicly available.
- Abstract(参考訳): 再識別(ReID)はコンピュータビジョンにおいて重要な課題であり、主に歩行者や車両の文脈で研究されている。
しかし, 自律探索, 長期認識, シーン理解といったタスクに重要な意味を持つ頑健なオブジェクトインスタンスReIDは, 未探索のままである。
本研究では,マルチモーダルRGBと深度情報を統合した新しいデュアルパスオブジェクト-インスタンス再識別トランスフォーマアーキテクチャを提案する。
深度データを活用することで,照度条件が変化したり散らばったりしたシーンにおけるReIDの改善を実演する。
さらに,ReIDに基づくカメラの正確なローカライズと,異なる視点で識別を行うことのできるローカライズフレームワークを開発した。
2つのカスタムビルドされたRGB-Dデータセットと、オープンソースのTUM RGB-Dデータセットからの複数のシーケンスを用いて、本手法の有効性を検証する。
提案手法はオブジェクトインスタンスReID(mAPは75.18)とローカライズ精度(83%はTUM-RGBD)の両方において有意な改善を示し,ロボット知覚の進展におけるオブジェクトReIDの重要性を強調した。
私たちのモデル、フレームワーク、データセットが公開されています。
関連論文リスト
- Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - An Open-World, Diverse, Cross-Spatial-Temporal Benchmark for Dynamic Wild Person Re-Identification [58.5877965612088]
人物再識別(ReID)は、データ駆動のディープラーニング技術のおかげで大きな進歩を遂げました。
既存のベンチマークデータセットには多様性がなく、これらのデータに基づいてトレーニングされたモデルは、動的なワイルドシナリオに対してうまく一般化できない。
OWDと呼ばれる新しいOpen-World, Diverse, Cross-Spatial-Temporalデータセットを開発した。
論文 参考訳(メタデータ) (2024-03-22T11:21:51Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - Object Re-Identification from Point Clouds [3.6308236424346694]
我々は,物体ReIDを点雲から大規模に研究し,画像ReIDに対してその性能を確立する。
我々の知る限りでは、我々は実際の雲の観測から物体の再同定を初めて研究している。
論文 参考訳(メタデータ) (2023-05-17T13:43:03Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - How to track your dragon: A Multi-Attentional Framework for real-time
RGB-D 6-DOF Object Pose Tracking [35.21561169636035]
本稿では,リアルタイムRGB-D 6Dオブジェクトのポーズトラッキング問題に対処するために,新しい多目的畳み込みアーキテクチャを提案する。
物体の3次元モデルとポーズ空間の両方の特別な幾何学的性質を考察し、トレーニング中のデータ拡張により洗練されたアプローチを用いる。
論文 参考訳(メタデータ) (2020-04-21T23:00:06Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。