論文の概要: PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications
- arxiv url: http://arxiv.org/abs/2505.01881v2
- Date: Thu, 12 Jun 2025 05:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.254812
- Title: PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications
- Title(参考訳): PhysNav-DG:ナビゲーション応用におけるロバストVLM-センサー融合のための新しい適応フレームワーク
- Authors: Trisanth Srinivasan, Santosh Patapati,
- Abstract要約: PhysNav-DGは、古典的なセンサー融合と視覚言語モデルのセマンティックパワーを統合する新しいフレームワークである。
我々のデュアルブランチアーキテクチャは、マルチセンサー入力からナビゲーション動作を予測し、同時に詳細なチェーン・オブ・シークレットの説明を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust navigation in diverse environments and domains requires both accurate state estimation and transparent decision making. We present PhysNav-DG, a novel framework that integrates classical sensor fusion with the semantic power of vision-language models. Our dual-branch architecture predicts navigation actions from multi-sensor inputs while simultaneously generating detailed chain-of-thought explanations. A modified Adaptive Kalman Filter dynamically adjusts its noise parameters based on environmental context. It leverages several streams of raw sensor data along with semantic insights from models such as LLaMA 3.2 11B and BLIP-2. To evaluate our approach, we introduce the MD-NEX Benchmark, a novel multi-domain dataset that unifies indoor navigation, autonomous driving, and social navigation tasks with ground-truth actions and human-validated explanations. Extensive experiments and ablations show that PhysNav-DG improves navigation success rates by over 20% and achieves high efficiency, with explanations that are both highly grounded and clear. This work connects high-level semantic reasoning and geometric planning for safer and more trustworthy autonomous systems.
- Abstract(参考訳): 多様な環境やドメインにおけるロバストなナビゲーションには、正確な状態推定と透過的な意思決定の両方が必要である。
本稿では,従来のセンサ融合と視覚言語モデルのセマンティックパワーを統合した新しいフレームワークPhysNav-DGを提案する。
我々のデュアルブランチアーキテクチャは、マルチセンサー入力からナビゲーション動作を予測し、同時に詳細なチェーン・オブ・シークレットの説明を生成する。
修正適応カルマンフィルタは環境コンテキストに基づいて動的にノイズパラメータを調整する。
これは、LLaMA 3.2 11BやBLIP-2のようなモデルからのセマンティックインサイトとともに、生のセンサーデータのストリームを利用する。
本手法を評価するためにMD-NEXベンチマーク(MD-NEX Benchmark)を提案する。
大規模な実験と改善により、PhysNav-DGは航法成功率を20%以上改善し、高い効率性を実現している。
この研究は、より安全で信頼性の高い自律システムのための高レベルのセマンティック推論と幾何学的計画とを結びつける。
関連論文リスト
- Integration of a high-fidelity model of quantum sensors with a map-matching filter for quantum-enhanced navigation [0.0]
原子干渉計を用いた重力勾配計の高忠実度モデルの実現について報告する。
量子重力勾配計を用いた地図マッチングによるナビゲーション支援により,安定した軌道が導かれることを示す。
センサの傾きを3.3度以下に抑えるなど,これらの誤差を軽減するための要件を導出する。
論文 参考訳(メタデータ) (2025-04-15T12:07:21Z) - Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images [0.9883261192383611]
本稿では,空飛ぶロボットの単眼カメラを用いて,非構造環境における深度とセマンティックマップの予測を行う。
本稿では,2つのタスクを正確かつ迅速に実行可能な共同ディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-23T08:25:07Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - A Bionic Data-driven Approach for Long-distance Underwater Navigation with Anomaly Resistance [59.21686775951903]
様々な動物が環境の手がかりを使って正確なナビゲーションをしている。
動物航法にインスパイアされたこの研究は、長距離水中航法のためのバイオニックでデータ駆動のアプローチを提案する。
提案手法では,GPSシステムや地理地図を必要とせず,測地データを用いてナビゲーションを行う。
論文 参考訳(メタデータ) (2024-02-06T13:20:56Z) - Enhanced Low-Dimensional Sensing Mapless Navigation of Terrestrial
Mobile Robots Using Double Deep Reinforcement Learning Techniques [1.191504645891765]
地上移動ロボットのためのマップレスナビゲーションの強化を目的とした2つのアプローチを提案する。
研究手法は主に、DQN(Deep Q-Network)アルゴリズムに基づくDeep-RL戦略と、DQN(Double Deep Q-Network)アルゴリズムに基づく代替アプローチの比較分析を含む。
提案手法は3つの異なる実環境において評価され、Double Deep構造は単純なQ構造に比べて移動ロボットのナビゲーション能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-10-20T20:47:07Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Data-Driven Meets Navigation: Concepts, Models, and Experimental
Validation [0.0]
ナビゲーションの目的は、有人・自律的なプラットフォーム、人間、動物の位置、速度、方向を決定することである。
我々はAutonomous Navigation and Sensor Fusion Labで開発された,データ駆動型多分野ナビゲーションアルゴリズムについて検討した。
論文 参考訳(メタデータ) (2022-10-06T14:03:10Z) - Lite-HDSeg: LiDAR Semantic Segmentation Using Lite Harmonic Dense
Convolutions [2.099922236065961]
完全3ドルのLiDAR点雲のセマンティックセグメンテーションのための,新しいリアルタイム畳み込みニューラルネットワークLite-HDSegを提案する。
提案手法は,リアルタイムに動作可能な意味セグメンテーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-16T04:54:57Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。