論文の概要: LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation
- arxiv url: http://arxiv.org/abs/2602.02220v1
- Date: Mon, 02 Feb 2026 15:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.25209
- Title: LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation
- Title(参考訳): LangMap: オープン語彙ゴールナビゲーションのための階層的なベンチマーク
- Authors: Bo Miao, Weijia Liu, Jun Luo, Lachlan Shinnick, Jian Liu, Thomas Hamilton-Smith, Yuhe Yang, Zijie Wu, Vanja Videnovic, Feras Dayoub, Anton van den Hengel,
- Abstract要約: 目標ナビゲーションタスクであるHieraNavを導入し、エージェントは自然言語命令を解釈して4つの意味レベルでターゲットに到達する。
われわれはLanguage as a Map (LangMap)について紹介する。
LangMapはより優れたアノテーション品質を実現し、GOAT-Benchを4倍の単語で識別精度で23.8%上回る。
- 参考スコア(独自算出の注目度): 34.074871694181965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap
- Abstract(参考訳): オブジェクトと言語の関係は、人間とAI間の有意義なコミュニケーションと、実用的に有用なインテリジェンスに不可欠である。
エージェントは、自然言語命令を解釈して、シーン、ルーム、リージョン、インスタンスの4つのセマンティックレベルに到達させる。
この目的のために、我々はLanguage as a Map (LangMap)について紹介する。Language as a Map(LangMap)は、実際の3D屋内スキャン上に構築された大規模なベンチマークであり、包括的な人間認証アノテーションとこれらのレベルにまたがるタスクである。
LangMapは、リージョンラベル、識別可能なリージョン記述、414のオブジェクトカテゴリを含む識別可能なインスタンス記述、および18K以上のナビゲーションタスクを提供する。
各ターゲットは簡潔な記述と詳細な記述の両方を特徴とし、異なる命令スタイルで評価を可能にする。
LangMapはより優れたアノテーション品質を実現し、GOAT-Benchを4倍の単語で識別精度で23.8%上回る。
LangMap上でのゼロショットモデルと教師付きモデルの総合的な評価は、よりリッチなコンテキストとメモリが成功を改善する一方で、長い尾、小さく、コンテキストに依存し、遠くの目標、そしてマルチゴールの完了は依然として困難であることを示している。
HieraNavとLangMapは、言語駆動のエンボディナビゲーションを進めるための厳格なテストベッドを構築している。
プロジェクト:https://bo-miao.github.io/LangMap
関連論文リスト
- MLFM: Multi-Layered Feature Maps for Richer Language Understanding in Zero-Shot Semantic Navigation [25.63797039823049]
LangNavはオープンソースのマルチオブジェクトナビゲーションデータセットで、自然言語のゴール記述がある。
MLFMは、事前訓練された視覚言語機能からクエリ可能な多層セマンティックマップを構築する。
LangNavの実験では、MLFMは最先端のゼロショットマッピングベースのナビゲーションベースラインを上回っている。
論文 参考訳(メタデータ) (2025-07-09T21:46:43Z) - Open-Set 3D Semantic Instance Maps for Vision Language Navigation -- O3D-SIM [6.475074453206891]
人間は周囲のメンタルマップを作り、オブジェクトの関係を理解し、言語クエリに基づいてナビゲートする。
事例レベルの情報と環境の意味的理解が,言語指導タスクの性能向上に有効であることを示す。
本稿では,3次元のクラウドマップをインスタンスレベルの埋め込みで表現し,自然言語コマンドがクエリできるというセマンティック理解をもたらす。
論文 参考訳(メタデータ) (2024-04-27T14:20:46Z) - IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。
近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。
本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:52:42Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - FILM: Following Instructions in Language with Modular Methods [109.73082108379936]
近年のインボディード・インストラクションの手法は、模倣学習を用いてエンド・ツー・エンドで訓練されている。
本稿では,シーンのセマンティックマップを構築し,セマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
以上の結果から,空間記憶の明示と意味探索の方針が,状態追跡とガイダンスのためのより強固で汎用的な表現を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-12T16:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。