論文の概要: DynaNav: Dynamic Feature and Layer Selection for Efficient Visual Navigation
- arxiv url: http://arxiv.org/abs/2509.21930v1
- Date: Fri, 26 Sep 2025 06:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.226468
- Title: DynaNav: Dynamic Feature and Layer Selection for Efficient Visual Navigation
- Title(参考訳): DynaNav: 効率的なビジュアルナビゲーションのための動的特徴と層選択
- Authors: Jiahui Wang, Changhao Chen,
- Abstract要約: DynaNavは動的ビジュアルナビゲーションフレームワークで、シーンの複雑さに基づいて機能とレイヤの選択を適用する。
訓練可能なハード機能セレクタを使用してスパース操作を行い、効率と解釈性を高めている。
ViNTと比較すると、DynnaNavはFLOPの2.26倍の減少、42.3%の推論時間、32.8%のメモリ使用率を実現している。
- 参考スコア(独自算出の注目度): 19.501191923456584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual navigation is essential for robotics and embodied AI. However, existing foundation models, particularly those with transformer decoders, suffer from high computational overhead and lack interpretability, limiting their deployment in resource-tight scenarios. To address this, we propose DynaNav, a Dynamic Visual Navigation framework that adapts feature and layer selection based on scene complexity. It employs a trainable hard feature selector for sparse operations, enhancing efficiency and interpretability. Additionally, we integrate feature selection into an early-exit mechanism, with Bayesian Optimization determining optimal exit thresholds to reduce computational cost. Extensive experiments in real-world-based datasets and simulated environments demonstrate the effectiveness of DynaNav. Compared to ViNT, DynaNav achieves a 2.26x reduction in FLOPs, 42.3% lower inference time, and 32.8% lower memory usage, while improving navigation performance across four public datasets.
- Abstract(参考訳): ビジュアルナビゲーションは、ロボット工学とAIの具体化に不可欠である。
しかし、既存の基盤モデル、特にトランスフォーマーデコーダを持つモデルは、高い計算オーバーヘッドと解釈可能性の欠如に悩まされ、リソースの密接なシナリオへの展開を制限している。
そこで我々はDynaNavを提案する。DynaNavは動的ビジュアルナビゲーションフレームワークで、シーンの複雑さに基づいて特徴とレイヤの選択を適応させる。
訓練可能なハード機能セレクタを使用してスパース操作を行い、効率と解釈性を高めている。
さらに,ベイジアン最適化によって最適出口閾値が決定され,計算コストの低減を図るため,特徴選択を早期終了機構に統合する。
実世界のデータセットとシミュレーション環境における大規模な実験は、DynaNavの有効性を実証している。
ViNTと比較すると、DynnaNavはFLOPの2.26倍の削減、42.3%の推論時間、32.8%のメモリ使用率を実現し、4つの公開データセット間のナビゲーション性能を改善している。
関連論文リスト
- A Reliable Indoor Navigation System for Humans Using AR-based Technique [0.0]
Vuforia Area Target(Vuforia Area Target)が環境モデリングに使われている。
Dijkstraのアルゴリズムと比較すると、より小さな検索空間では2倍から3倍高速な解が得られる。
その結果、既存のパスフィンディングアルゴリズムと統合されたAR技術は実現可能でスケーラブルであることがわかった。
論文 参考訳(メタデータ) (2026-02-27T06:18:49Z) - History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [64.51891404034164]
Aerial Vision-and-Language Navigation (AVLN) は、大規模都市環境でターゲットをローカライズするために無人航空機(UAV)のエージェントを必要とする。
既存のUAVエージェントは通常、これらの2つの側面のバランスに苦しむ単粒度フレームワークを採用する。
この研究は、粗いナビゲーションパイプラインを通じて2つの側面を統合するヒストリ強化2段階トランスフォーマー(HETT)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-16T09:16:07Z) - FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - Harnessing Input-Adaptive Inference for Efficient VLN [13.847596428283861]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における新たなパラダイムは、歴史を意識したマルチモーダルトランスモデルの利用である。
本稿では,VLNモデルの効率を向上させるための新しい入力適応ナビゲーション手法を提案する。
論文 参考訳(メタデータ) (2025-08-12T18:05:33Z) - PIG-Nav: Key Insights for Pretrained Image Goal Navigation Models [16.820485795257195]
PIG-Nav(Pretrained Image-Goal Navigation)は、視覚に基づくナビゲーションモデルの事前学習戦略をさらに研究する新しいアプローチである。
事前訓練されたナビゲーションモデルの性能を一貫して改善する2つの重要な設計選択を同定する。
我々のモデルは、ゼロショット設定の平均22.6%の改善と、既存のビジュアルナビゲーション基盤モデルよりも37.5%の微調整設定の改善を実現している。
論文 参考訳(メタデータ) (2025-07-23T05:34:20Z) - SSF-PAN: Semantic Scene Flow-Based Perception for Autonomous Navigation in Traffic Scenarios [10.303368447554591]
提案したSSF-PANは、LiDARポイントクラウドベースのオブジェクト検出/ローカライゼーションとSLAMの機能を実現することができる。
SUScape-CARLAとKITTIデータセットおよびCARLAシミュレータを用いて検証されている。
実験結果から,提案手法はシーンフロー精度,移動物体検出精度,計算効率,自律走行効率の点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-28T07:15:39Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - PlaceNav: Topological Navigation through Place Recognition [1.9382079036818822]
そこで我々はPlaceNavを紹介し、ロボットに依存しない部分をナビゲーション固有の汎用コンピュータビジョンコンポーネントに分割する。
トポロジカルナビゲーションパイプラインのサブゴール選択に視覚的位置認識を利用する。
実験の結果,提案手法は室内で76%,屋外ナビゲーションでは23%,計算効率が向上した。
論文 参考訳(メタデータ) (2023-09-29T14:12:54Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。