論文の概要: ShelfAware: Real-Time Visual-Inertial Semantic Localization in Quasi-Static Environments with Low-Cost Sensors
- arxiv url: http://arxiv.org/abs/2512.09065v1
- Date: Tue, 09 Dec 2025 19:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.295839
- Title: ShelfAware: Real-Time Visual-Inertial Semantic Localization in Quasi-Static Environments with Low-Cost Sensors
- Title(参考訳): ShelfAware:低速度センサを用いた準静的環境におけるリアルタイム視覚慣性セマンティック位置決め
- Authors: Shivendra Agrawal, Jake Brawer, Ashutosh Naik, Alessandro Roncone, Bradley Hayes,
- Abstract要約: 我々は,ロバストなグローバルローカライゼーションのためのセマンティック粒子フィルタであるShelfAwareを提案する。
これは、カテゴリ中心のセマンティックな類似性と深度確率を融合させる。
グローバルローカライゼーション100回の試験で96%の成功率を達成した。
- 参考スコア(独自算出の注目度): 39.915234134135765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many indoor workspaces are quasi-static: global layout is stable but local semantics change continually, producing repetitive geometry, dynamic clutter, and perceptual noise that defeat vision-based localization. We present ShelfAware, a semantic particle filter for robust global localization that treats scene semantics as statistical evidence over object categories rather than fixed landmarks. ShelfAware fuses a depth likelihood with a category-centric semantic similarity and uses a precomputed bank of semantic viewpoints to perform inverse semantic proposals inside MCL, yielding fast, targeted hypothesis generation on low-cost, vision-only hardware. Across 100 global-localization trials spanning four conditions (cart-mounted, wearable, dynamic obstacles, and sparse semantics) in a semantically dense, retail environment, ShelfAware achieves a 96% success rate (vs. 22% MCL and 10% AMCL) with a mean time-to-convergence of 1.91s, attains the lowest translational RMSE in all conditions, and maintains stable tracking in 80% of tested sequences, all while running in real time on a consumer laptop-class platform. By modeling semantics distributionally at the category level and leveraging inverse proposals, ShelfAware resolves geometric aliasing and semantic drift common to quasi-static domains. Because the method requires only vision sensors and VIO, it integrates as an infrastructure-free building block for mobile robots in warehouses, labs, and retail settings; as a representative application, it also supports the creation of assistive devices providing start-anytime, shared-control assistive navigation for people with visual impairments.
- Abstract(参考訳): グローバルなレイアウトは安定しているが、局所的な意味論は継続的に変化し、反復幾何学、動的クラッタ、視覚ベースのローカライゼーションを破る知覚ノイズを生み出す。
固定ランドマークではなくオブジェクトカテゴリに対する統計的証拠としてシーンセマンティクスを扱う,ロバストなグローバルなローカライゼーションのためのセマンティック粒子フィルタであるShelfAwareを提案する。
ShelfAwareは、カテゴリ中心のセマンティックな類似性と深度確率を融合させ、事前に計算されたセマンティックな視点を用いて、MCL内で逆セマンティックな提案を行う。
セマンティックに密集した小売環境での4つの条件(カートマウント、ウェアラブル、ダイナミック障害、スパースセマンティクス)にまたがる100のグローバルローカライゼーショントライアルにおいて、ShelfAwareは96%の成功率(vs.22% MCLと10% AMCL)を達成した。
カテゴリーレベルでのセマンティックスをモデル化し、逆の提案を活用することで、シェルフウェアは擬静領域に共通する幾何学的エイリアスと意味的ドリフトを解消する。
この方法は視覚センサとVIOのみを必要とするため、倉庫、研究室、小売店などにおける移動ロボットのためのインフラストラクチャフリーなビルディングブロックとして統合されており、視覚障害のある人のための、いつでも起動可能な共有制御補助ナビゲーションを提供する補助装置の作成もサポートしている。
関連論文リスト
- Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - SpatiaLoc: Leveraging Multi-Level Spatial Enhanced Descriptors for Cross-Modal Localization [14.55605595737025]
テキストとポイントクラウドを使用したクロスモーダルなローカライゼーションにより、ロボットは自然言語記述を通じて自分自身をローカライズすることができる。
SpatiaLocは、空間的関係をインスタンスレベルとグローバルレベルの両方で強調するフレームワークである。
KITTI360Poseの実験により、SpatiaLocは既存の最先端(SOTA)法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2026-01-07T04:50:39Z) - Deep Global Clustering for Hyperspectral Image Segmentation: Concepts, Applications, and Open Challenges [1.9116784879310027]
ハイパースペクトルイメージング(HSI)解析は、利用可能なメモリを超える大量のデータ量のために計算ボトルネックに直面している。
本稿では,メモリ効率の高いHSIセグメンテーションの概念フレームワークであるDeep Global Clustering (DGC)について述べる。
DGCは、重複するリージョンを持つ小さなパッチを使用して一貫性を強制し、コンシューマハードウェア上で30分未満のトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-30T12:10:43Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - One Swallow Does Not Make a Summer: Understanding Semantic Structures in Embedding Spaces [17.173074024116477]
埋め込み空間は現代のAIの基本であり、生データをリッチなセマンティックな関係を符号化する高次元ベクトルに変換する。
埋め込み空間内の局所的な意味的近傍をキャプチャする幾何学保存・文脈認識表現であるSemantic Field Subspace (SFS)を導入する。
また,セマンティックシフト(Semantic Shift)と呼ばれる新しい計量を用いて階層的意味構造を明らかにする,教師なし・モダリティに依存しないアルゴリズムであるSAFARIを提案する。
論文 参考訳(メタデータ) (2025-11-30T11:48:00Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation [9.964615076037397]
ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。
これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T02:29:51Z) - Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - Monocular Per-Object Distance Estimation with Masked Object Modeling [33.59920084936913]
本稿では、Masked Image Modeling (MiM) からインスピレーションを得て、マルチオブジェクトタスクに拡張する。
Masked Object Modeling (MoM) と呼ばれる我々の戦略は、マスキング技術の新しい応用を可能にする。
我々は、標準KITTI、NuScenes、MOT Synthデータセット上の新しい参照アーキテクチャ(DistFormer)におけるMoMの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - Persistent Homology Meets Object Unity: Object Recognition in Clutter [2.356908851188234]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって難しい問題である。
本稿では,深度画像から生成された点雲のための新しい記述子TOPSと,人間の推論にインスパイアされた認識フレームワークTHORを提案する。
THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度が大幅に向上している。
論文 参考訳(メタデータ) (2023-05-05T19:42:39Z) - Learning Localization-aware Target Confidence for Siamese Visual
Tracking [13.684278662495204]
我々はSiamLAと呼ばれる新しい追跡パラダイムを提案する。
このパラダイムの中では、単純だが効果的なローカライゼーション対応コンポーネントがいくつか導入されている。
当社のSiamLAは精度と効率の両面で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-04-29T13:37:15Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - ClusterVO: Clustering Moving Instances and Estimating Visual Odometry
for Self and Surroundings [54.33327082243022]
ClusterVOはステレオビジュアルオドメトリーで、エゴと周囲の固いクラスタ/オブジェクトの両方の動きを同時にクラスタし、推定する。
以前のソリューションでは、バッチ入力やシーン構造や動的オブジェクトモデルへの事前の指示に頼っていたが、ClusterVOは一般的にオンラインであり、屋内のシーン理解や自律運転など、さまざまなシナリオで使用することができる。
論文 参考訳(メタデータ) (2020-03-29T09:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。