論文の概要: Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces
- arxiv url: http://arxiv.org/abs/2508.02917v1
- Date: Mon, 04 Aug 2025 21:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.694127
- Title: Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces
- Title(参考訳): 大規模視線モデルを用いた追従経路指示:低レベル行動空間とパノラマ行動空間の比較
- Authors: Vebjørn Haug Kåsene, Pierre Lison,
- Abstract要約: VLN(Vision-and-Language Navigation)は、自律型ロボットが自然言語の指示に従うことで、未知の環境をナビゲートすることを可能にする。
現行のVLNシステムはナビゲーション用に特別に設計され最適化されたモデルに依存しており、市販のLVLMの可能性を未調査のまま残している。
本稿では,市販のLVLMがVLNタスクを効果的にサポートできるのか,低レベルおよびパノラマ動作パラダイムの両方をサポートすることができるのかを検討する。
- 参考スコア(独自算出の注目度): 2.2406151150434894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) refers to the task of enabling autonomous robots to navigate unfamiliar environments by following natural language instructions. While recent Large Vision-Language Models (LVLMs) have shown promise in this task, most current VLM systems rely on models specifically designed and optimized for navigation, leaving the potential of off-the-shelf LVLMs underexplored. Furthermore, while older VLN approaches used low-level action spaces with egocentric views and atomic actions (such as "turn left" or "move forward"), newer models tend to favor panoramic action spaces with discrete navigable viewpoints. This paper investigates (1) whether off-the-shelf LVLMs (fine-tuned without architectural modifications or simulator-based training) can effectively support VLN tasks and (2) whether such models can support both low-level and panoramic action paradigms. To this end, we fine-tune the open-source model Qwen2.5-VL-3B-Instruct on the Room-to-Room (R2R) dataset and evaluate its empirical performance across both low-level and panoramic action spaces. The best resulting model achieves a 41% success rate on the R2R test set, demonstrating that while off-the-shelf LVLMs can learn to perform Vision-and-Language Navigation, they still lag behind models specifically designed for this task.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、自律型ロボットが自然言語の指示に従うことによって、馴染みのない環境をナビゲートできるようにするタスクである。
最近のLVLM(Large Vision-Language Models)は、このタスクにおいて有望であるが、現在のVLMシステムはナビゲーション用に特別に設計され最適化されたモデルに依存しており、既製のLVLMの可能性を過小評価している。
さらに、古いVLNアプローチでは、エゴセントリックなビューとアトミックなアクション(例えば「ターン左」や「前進」)を持つ低レベルなアクション空間を使用するが、新しいモデルでは、個別のナビゲート可能な視点を持つパノラマ的なアクション空間を好む傾向がある。
本稿では,(1)市販のLVLM(アーキテクチャ変更やシミュレータベーストレーニングなしで微調整)がVLNタスクを効果的にサポートできるか,(2)低レベルおよびパノラマ動作パラダイムの両方をサポートできるかを検討する。
この目的のために、オープンソースモデルQwen2.5-VL-3B-Instruct on the Room-to-Room(R2R)データセットを微調整し、その実験性能を低レベルおよびパノラマの両方のアクション空間で評価する。
最高のモデルがR2Rテストセットで41%の成功率を達成したことで、既製のLVLMがビジョン・アンド・ランゲージ・ナビゲーションの実行を学べる一方で、このタスクのために特別に設計されたモデルに遅れをとどめていることが証明された。
関連論文リスト
- EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation [38.04404612393027]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)により、エージェントは自然言語の指示に従って3D環境の遠隔地へ移動することができる。
本研究では,パノラマ的トラバーサビリティ認識とパノラマ的セマンティック理解を備えた単分子ロボットを実現するためのシミュレート・トゥ・リアル・トランスファー手法を提案する。
我々のVLNシステムはシミュレーション環境でR2R-CEとRxR-CEのベンチマークにおいて従来のSOTA単分子VLN法よりも優れており、実環境においても検証されている。
論文 参考訳(メタデータ) (2024-06-14T07:50:09Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Reinforced Structured State-Evolution for Vision-Language Navigation [42.46176089721314]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクは、自然言語の指示に従って遠隔地へ移動するための実施エージェントを必要とする。
従来の手法は通常、シークエンスモデル(TransformerやLSTMなど)をナビゲータとして採用していた。
本稿では,VLNの環境レイアウトの手がかりを効果的に維持するために,構造化状態進化(SEvol)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-20T07:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。