論文の概要: From Language to Logic: A Theoretical Architecture for VLM-Grounded Safe Navigation
- arxiv url: http://arxiv.org/abs/2605.04327v1
- Date: Tue, 05 May 2026 22:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.560488
- Title: From Language to Logic: A Theoretical Architecture for VLM-Grounded Safe Navigation
- Title(参考訳): 言語から論理へ:VLMを取り巻く安全なナビゲーションのための理論的アーキテクチャ
- Authors: Kristy Sakano, Kalonji Harrington, Mumu Xu,
- Abstract要約: 本研究では,自律型ロボットナビゲーションに高レベルかつ人為的な安全ルールと,操作者によるセマンティックな嗜好を組み込むアーキテクチャを提案する。
永続的で環境中心のルールと地形の嗜好は2次元のコストマップに基礎を置いている。
本研究では,STLに符号化された仕様とソフトオペレータの嗜好を満たすための図形ナビゲーションモデルを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an architecture for integrating high-level, human-provided safety rules and operator-aligned semantic preferences into autonomous robot navigation in unstructured outdoor environments. In our approach, natural-language rules are translated into Signal Temporal Logic (STL) specifications that guide planning and navigation during runtime. Persistent, environment-centric rules and terrain preferences are grounded into a 2D cost map, while temporally dynamic requirements are expressed as STL specifications to be monitored during runtime. We hypothesize the use of Vision-Language Models (VLMs) for zero-shot scene understanding, enabling mapping between human instructions, semantic features, and environmental constraints. Within this framework, we construct an illustrative navigation model that is designed to satisfy a set of STL-encoded specifications and soft operator preferences through formal satisfaction metrics embedded into environmental properties and runtime monitoring.
- Abstract(参考訳): 本研究では,非構造屋外環境における自律型ロボットナビゲーションに,高レベルの人為的安全ルールと操作者によるセマンティックな嗜好を統合するアーキテクチャを提案する。
提案手法では,自然言語規則をSTL(Signal Temporal Logic)仕様に変換し,実行時の計画とナビゲーションをガイドする。
持続的で環境中心のルールと地形の嗜好は2次元のコストマップに基礎を置き、時間的に動的な要求は実行時に監視されるSTL仕様として表現される。
我々は、視覚言語モデル(VLM)をゼロショットシーン理解に利用し、人間の指示、意味的特徴、環境制約のマッピングを可能にする。
本フレームワークでは,環境特性とランタイム監視に埋め込まれた形式的満足度指標を用いて,STL符号化仕様のセットとソフトオペレータの嗜好を満たすための図形ナビゲーションモデルを構築した。
関連論文リスト
- Zero-Shot Signal Temporal Logic Planning with Disjunctive Branch Selection in Dynamic Semantic Maps [5.359659831465926]
Signal Temporal Logic (STL) は検証可能なタスク仕様を提供し、安全クリティカルな制御に不可欠である。
可変マップ環境に対するゼロショットSTL計画法を提案する。
論文 参考訳(メタデータ) (2026-05-02T03:32:23Z) - LLM-Enabled Low-Altitude UAV Natural Language Navigation via Signal Temporal Logic Specification Translation and Repair [15.975402169089305]
低高度無人航空機(UAV)のための自然言語モジュール(NL)ナビゲーションは、低高度航空サービスのためのインテリジェントで便利なソリューションを提供する。
本稿では,NL命令をSTL(Signal Temporal Logic)仕様に変換する統一フレームワークを提案する。
具体的には,論理的あるいは空間的要求によって引き起こされる不確実性を解決するために,推論強化型大言語モデル(LLM)を開発した。
論文 参考訳(メタデータ) (2026-03-29T08:46:28Z) - AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - Interpreting Context-Aware Human Preferences for Multi-Objective Robot Navigation [6.15445073348032]
本稿では,ロボットがコンテキストに依存したナビゲーションの好みを理解し,適用できるようにするパイプラインを提案する。
Vision-Language Model (VLM)は、搭載された視覚観測から構造化された環境コンテキストを抽出する。
大規模言語モデル(LLM)は、自然言語のユーザフィードバックを解釈可能なコンテキスト依存の行動規則に変換する。
好み翻訳モジュールは、コンテキスト情報と格納されたルールを数値的な好みベクトルにマッピングする。
論文 参考訳(メタデータ) (2026-03-18T09:14:05Z) - SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language [11.384592553913778]
本稿では,この問題をInterpret--Synthesize:iに分解するゼロショットモジュラーフレームワークを提案する。
我々はOVerSeeCがランク付けや構成の好みを処理し,多様な領域にまたがる人力トラジェクトリと整合した経路を生成することを示す。
論文 参考訳(メタデータ) (2026-02-20T20:49:07Z) - A Unified Experimental Architecture for Informative Path Planning: from Simulation to Deployment with GuadalPlanner [69.43049144653882]
本稿では,車種別制御から高レベルの意思決定を分離する統一アーキテクチャを提案する。
提案アーキテクチャは、計画、センシング、車両実行の標準化されたインターフェースを定義するGuaralPlannerを通じて実現されている。
論文 参考訳(メタデータ) (2026-02-11T10:02:31Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - Grounding Complex Natural Language Commands for Temporal Tasks in Unseen
Environments [21.05763924114676]
Lang2LTLは、大規模な言語モデルを利用して、事前の言語データを持たない環境の仕様に時間的ナビゲーションコマンドを基盤とするモジュールシステムである。
都市規模21の環境において,Lang2LTLのナビゲーションコマンドを多種多様な時間的仕様に設定できることを実証する。
論文 参考訳(メタデータ) (2023-02-22T20:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。