論文の概要: A Semantic Autonomy Framework for VLM-Integrated Indoor Mobile Robots: Hybrid Deterministic Reasoning and Cross-Robot Adaptive Memory
- arxiv url: http://arxiv.org/abs/2605.02525v1
- Date: Mon, 04 May 2026 12:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.280895
- Title: A Semantic Autonomy Framework for VLM-Integrated Indoor Mobile Robots: Hybrid Deterministic Reasoning and Cross-Robot Adaptive Memory
- Title(参考訳): VLM内蔵屋内移動ロボットのセマンティックオートノミーフレームワーク:ハイブリッド決定論的推論とロボット間適応メモリ
- Authors: Bogdan Felician Abaza, Andrei-Alexandru Staicu, Cristian Vasile Doicin,
- Abstract要約: 本稿では,セマンティックな屋内ナビゲーションのための6層参照フレームワークを提案する。
7ステップのパラメトリックリゾルバは、言語モデル、カメラ、GPUを呼び出すことなく0.1ミリ秒未満で88%の命令を処理する。
明示的なスコープ分類を持つ5カテゴリセマンティックメモリフレームワークは、クロスセッション学習とクロスロボット知識伝達を可能にする。
- 参考スコア(独自算出の注目度): 5.2851376150891864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous indoor mobile robots can navigate reliably to metric coordinates using established frameworks such as ROS 2 Navigation 2, yet they lack the ability to interpret natural language instructions that express intent rather than positions. Vision-Language Models offer the semantic reasoning required to bridge this gap, but their inference latency (2-9 seconds per decision on consumer hardware) and session-by-session amnesia limit practical deployment. This paper presents the Semantic Autonomy Stack, a six-layer reference framework for semantically autonomous indoor navigation, and validates a complete instance featuring hybrid deterministic-VLM reasoning and cross-robot adaptive memory on physical robots with off-the-shelf edge hardware. A seven-step parametric resolver handles 88% of instructions in under 0.1 milliseconds without invoking a language model, camera, or GPU; only genuinely ambiguous instructions escalate to VLM reasoning. A five-category semantic memory framework with explicit scope taxonomy (global environment knowledge, per-operator preferences, per-robot capabilities) enables cross-session learning and cross-robot knowledge transfer: preferences learned through VLM interactions on one robot are promoted to deterministic resolution and transferred to a second robot via a shared compiled digest, achieving a measured latency reduction of 103,000-fold. Experimental validation on two custom-built differential-drive robots across 82 scenario-level decisions and three sessions demonstrates 100% semantic transfer accuracy (33/33, 95% CI [0.894, 1.000]), 100% semantic resolution accuracy, and concurrent multi-robot operation feasibility - all on Raspberry Pi 5 platforms with no onboard GPU, requiring zero training data.
- Abstract(参考訳): 自律型屋内移動ロボットは、ROS 2 Navigation 2のような確立したフレームワークを使用して、測定座標に確実にナビゲートすることができるが、位置ではなく意図を表現する自然言語命令を解釈する能力は欠如している。
Vision-Language Modelsは、このギャップを埋めるために必要なセマンティック推論を提供するが、その推論遅延(2~9秒毎の消費者ハードウェア決定)とセッション・バイ・セッション・アンネシアは実用的なデプロイメントを制限している。
本稿ではセマンティック・オートノミー・スタック(Semantic Autonomy Stack)を提案する。セマンティック・オートノミー・スタック(Semantic Autonomy Stack)は、セマンティック・オートノミー・スタック(Semantic Autonomy Stack)と呼ばれるセマンティック・オートノミー・スタック(Semantic Autonomy Stack)と呼ばれるセマンティック・オートノミー・スタック(Semantic Autonomy Stack)と呼ばれるセマンティック・オートノミー・スタック(Semantic Autonomy Stack)と呼ばれるセマンティック・オートノミー・スタック(Semantic Autonomy Stack)で、セマンティック・オートノミー・ナビゲーション(Semantic Autonomy Stack)をセマンティック・ナビゲーション(Semantic)と呼ぶ。
7ステップのパラメトリックレゾルバは、言語モデル、カメラ、GPUを呼び出すことなく0.1ミリ秒未満で88%の命令を処理する。
明示的なスコープ分類(グローバル環境知識、オペレータごとの好み、ロボットごとの能力)を持つ5カテゴリのセマンティックメモリフレームワークは、クロスセッション学習とクロスロボットの知識伝達を可能にしている。
82のシナリオレベルの決定と3つのセッションにわたる2つのカスタムビルドディファレンシャルドライブロボットに対する実験的検証では、100%セマンティックトランスファー精度(33/33、95% CI [0.894, 1.000])、100%セマンティックレゾリューションの精度、および同時マルチロボット操作の実現性が示されている。
関連論文リスト
- Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation [14.833622989644352]
我々は、自然言語コマンドを信頼性の高い操作に変換する軽量で完全なオンデバイスパイプラインを開発した。
Instruct2Actは91.5%のサブアクション予測精度を達成し、フットプリントは小さい。
その結果, DATRNに基づく軌道生成と視覚誘導グラウンド化と相まって, 決定論的, リアルタイムな操作を行うための実践的な経路が得られた。
論文 参考訳(メタデータ) (2026-02-10T16:25:39Z) - CHORAL: Traversal-Aware Planning for Safe and Efficient Heterogeneous Multi-Robot Routing [4.3992789649203194]
自律ロボットによる大規模で未知の複雑な環境のモニタリングは、重要なナビゲーション課題を引き起こす。
異種ロボットの協調のための統合意味認識フレームワークを提案する。
シミュレーション実験と3つのロボットプラットフォームを用いた実際の検査ミッションにより,本手法の有効性が実証された。
論文 参考訳(メタデータ) (2026-01-15T12:34:22Z) - Real-Time Human-Robot Interaction Intent Detection Using RGB-based Pose and Emotion Cues with Cross-Camera Model Generalization [0.8839687029212673]
公共空間におけるサービスロボットは、自然な相互作用のための人間の行動意図をリアルタイムに理解する必要がある。
モノクラーRGBビデオから抽出した2次元骨格ポーズと顔の感情特徴を融合したフレーム精度の人-ロボットインタラクション意図検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-18T08:44:22Z) - InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.89177083578213]
空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。
InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。
結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
論文 参考訳(メタデータ) (2025-10-15T17:30:05Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation [50.060274413294586]
自然言語を用いてオブジェクト指向を定義するセマンティック・オリエンテーションの概念を導入する。
我々のSoFarフレームワークは, VLMエージェントにセマンティックオリエンテーションを組み込むことで, 6-DoF空間推論を可能にし, ロボット行動を生成する。
論文 参考訳(メタデータ) (2025-02-18T18:59:02Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Kimera-Multi: Robust, Distributed, Dense Metric-Semantic SLAM for
Multi-Robot Systems [92.26462290867963]
Kimera-Multiは、最初のマルチロボットシステムであり、不正なインターループとイントラロボットループの閉鎖を識別し拒否することができる。
我々は、フォトリアリスティックシミュレーション、SLAMベンチマークデータセット、地上ロボットを用いて収集された屋外データセットの挑戦において、Kimera-Multiを実証した。
論文 参考訳(メタデータ) (2021-06-28T03:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。