論文の概要: Rule-VLN: Bridging Perception and Compliance via Semantic Reasoning and Geometric Rectification
- arxiv url: http://arxiv.org/abs/2604.16993v1
- Date: Sat, 18 Apr 2026 13:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.278583
- Title: Rule-VLN: Bridging Perception and Compliance via Semantic Reasoning and Geometric Rectification
- Title(参考訳): Rule-VLN:意味的推論と幾何学的整形によるブリッジング知覚とコンプライアンス
- Authors: Jiawen Wen, Penglei Sun, Wenjie Zhang, Suixuan Qiu, Weisheng Xu, Xiaofei Yang, Xiaowen Chu,
- Abstract要約: Rule-VLNはルールに準拠したナビゲーションのための最初の大規模都市ベンチマークである。
SNRMは、訓練済みのエージェントに安全意識を持たせるために設計された、普遍的なゼロショットモジュールである。
- 参考スコア(独自算出の注目度): 15.481194938081016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As embodied AI transitions to real-world deployment, the success of the Vision-and-Language Navigation (VLN) task tends to evolve from mere reachability to social compliance. However, current agents suffer from a "goal-driven trap", prioritizing physical geometry ("can I go?") over semantic rules ("may I go?"), frequently overlooking subtle regulatory constraints. To bridge this gap, we establish Rule-VLN, the first large-scale urban benchmark for rule-compliant navigation. Spanning a massive 29k-node environment, it injects 177 diverse regulatory categories into 8k constrained nodes across four curriculum levels, challenging agents with fine-grained visual and behavioral constraints. We further propose the Semantic Navigation Rectification Module (SNRM), a universal, zero-shot module designed to equip pre-trained agents with safety awareness. SNRM integrates a coarse-to-fine visual perception VLM framework with an epistemic mental map for dynamic detour planning. Experiments demonstrate that while Rule-VLN challenges state-of-the-art models, SNRM significantly restores navigation capabilities, reducing CVR by 19.26% and boosting TC by 5.97%.
- Abstract(参考訳): AIが現実世界のデプロイメントに移行するにつれ、ビジョン・アンド・ランゲージ・ナビゲーション(VLN)タスクの成功は、単に到達可能性から社会的コンプライアンスへと進化する傾向にある。
しかし、現在のエージェントは「ゴール駆動トラップ(Goal-driven trap)」に悩まされており、物理的な幾何学("I go?
このギャップを埋めるために、ルール準拠ナビゲーションのための最初の大規模都市ベンチマークであるルール-VLNを確立する。
巨大な29kノード環境を拡大して、177の多様な規制カテゴリを4つのカリキュラムレベルにわたる8k制約ノードに注入し、きめ細かい視覚的および行動的制約を持つエージェントに挑戦する。
さらに,訓練済みエージェントに安全意識を持たせるために設計された汎用ゼロショットモジュールであるセマンティックナビゲーション整形モジュール (SNRM) を提案する。
SNRMは、粗い視覚知覚VLMフレームワークと、動的デトゥーア計画のための疫学的メンタルマップを統合している。
実験では、ルール-VLNが最先端のモデルに挑戦する一方で、SNRMは航法能力を大幅に回復し、CVRを19.26%削減し、TCを5.97%向上させた。
関連論文リスト
- Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring [8.325759657274602]
本稿では,資源制約のあるエッジプラットフォーム上での高遅延意味推論と高レイテンシ意味推論の基本的な対立について述べる。
NVIDIA Agile-AVLAアーキテクチャは、5ショットのデモだけで複雑な不規則な操作タスクの階層的なコア修正を実現する。
論文 参考訳(メタデータ) (2026-03-24T07:48:08Z) - AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - CORAL: COntextual Reasoning And Local Planning in A Hierarchical VLM Framework for Underwater Monitoring [10.250809787836607]
オイスターサンゴ礁は生物多様性を維持し、水を濾過し、海岸線を保護する重要な生態系種である。
礁の健康を評価するための通常の水中モニタリングは、人間のダイバーが行う場合、費用がかかり、危険であり、制限される。
既存の自律型水中車両(AUV)は、シーンセマンティクスを解釈できない幾何学に基づくナビゲーションに依存している。
近年の視覚言語モデル(VLM)は知的探索のセマンティック推論を可能にするが、既存のVLM駆動システムはエンドツーエンドのパラダイムを採用している。
低レベルのリアクティブ制御から高レベルのセマンティック推論を分離するフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2026-03-16T03:35:08Z) - WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents [23.828845891763617]
WaterVideoQAは、全水路環境向けに特別に設計された、最初の大規模で包括的なビデオ質問回答ベンチマークである。
オープンエンド海洋推論のために設計された,先駆的なマルチエージェント型ニューロシンボリックシステムであるNaviMindについても紹介する。
論文 参考訳(メタデータ) (2026-02-26T12:12:40Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - Self-Supervised Path Planning in Unstructured Environments via Global-Guided Differentiable Hard Constraint Projection [5.665217514922631]
本研究では,非構造化環境における自律ナビゲーションのためのディープラーニングエージェントをデプロイするための自己教師型フレームワークを提案する。
データ不足を軽減するため,手動ラベリングを使わずに高密度の監視信号を提供するG-APF(Global-Guided Artificial Potential Field)を構築した。
20,000のシナリオからなるテストセットのベンチマークでは、88.75%の成功率を示し、強化された運用安全性を実証している。
論文 参考訳(メタデータ) (2026-01-27T08:37:21Z) - UAV-VL-R1: Generalizing Vision-Language Models via Supervised Fine-Tuning and Multi-Stage GRPO for UAV Visual Reasoning [11.872945853854628]
本稿では,UAV-VL-R1を提案する。
教師付き微調整(SFT)と多段階強化学習(RL)を組み合わせたハイブリッド手法を用いて訓練を行った。
我々は,UAV-VL-R1がQwen2-VL-2B-Instructベースラインよりも48.17%高いゼロショット精度を実現し,72Bスケールの派生モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2025-08-15T04:06:40Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied
Scenarios [66.05091704671503]
本稿では、ポイントツーポイントナビゲーションタスクにおける飛行偏差に対処する新しい角度ナビゲーションパラダイムを提案する。
また、Adaptive Feature Enhance Module、Cross-knowledge Attention-guided Module、Robust Task-oriented Head Moduleを含むモデルを提案する。
論文 参考訳(メタデータ) (2024-02-04T08:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。