論文の概要: LangNavBench: Evaluation of Natural Language Understanding in Semantic Navigation
- arxiv url: http://arxiv.org/abs/2507.07299v1
- Date: Wed, 09 Jul 2025 21:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.215141
- Title: LangNavBench: Evaluation of Natural Language Understanding in Semantic Navigation
- Title(参考訳): LangNavBench: セマンティックナビゲーションにおける自然言語理解の評価
- Authors: Sonia Raychaudhuri, Enrico Cancelli, Tommaso Campari, Lamberto Ballan, Manolis Savva, Angel X. Chang,
- Abstract要約: LangNavは、異なるレベルの詳細で記述されたオブジェクトを見つけるエージェントの能力をテストするために特別に作成された、オープンセットのデータセットである。
LangNavBenchを使えば、属性、空間的およびリレーショナルなキュー、およびカテゴリ階層の処理に関するモデルを体系的に比較することができます。
MLFMはクエリ可能な多層セマンティックマップを構築する方法である。
- 参考スコア(独自算出の注目度): 18.951580080771432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large vision-language models has driven improvements in language-based semantic navigation, where an embodied agent must reach a target object described in natural language. Despite these advances, we still lack a clear, language-focused benchmark for testing how well such agents ground the words in their instructions. We address this gap with LangNav, an open-set dataset specifically created to test an agent's ability to locate objects described at different levels of detail, from broad category names to fine attributes and object-object relations. Every description in LangNav was manually checked, yielding a lower error rate than existing lifelong- and semantic-navigation datasets. On top of LangNav we build LangNavBench, a benchmark that measures how well current semantic-navigation methods understand and act on these descriptions while moving toward their targets. LangNavBench allows us to systematically compare models on their handling of attributes, spatial and relational cues, and category hierarchies, offering the first thorough, language-centric evaluation of embodied navigation systems. We also present Multi-Layered Feature Map (MLFM), a method that builds a queryable multi-layered semantic map, particularly effective when dealing with small objects or instructions involving spatial relations. MLFM outperforms state-of-the-art mapping-based navigation baselines on the LangNav dataset.
- Abstract(参考訳): 大規模視覚言語モデルの最近の進歩は、自然言語で記述された対象物にエンボディエージェントが到達しなければならない言語ベースのセマンティックナビゲーションの改善を促している。
これらの進歩にも拘わらず、これらのエージェントが指示の言葉をいかにうまく根絶するかをテストするための明確な言語中心のベンチマークはいまだに欠けている。
このギャップに対処するため、LangNavというオープンセットのデータセットを使って、幅広いカテゴリ名から細かな属性、オブジェクトとオブジェクトの関係に至るまで、エージェントのさまざまなレベルで記述されたオブジェクトを見つける能力をテストする。
LangNavのすべての説明は手動でチェックされ、既存のライフロングおよびセマンティックナビゲーションデータセットよりもエラー率が低い。
LangNavの上にLangNavBenchという,現在のセマンティックナビゲーションメソッドがターゲットに向かって移動しながら,これらの記述をどのように理解し,動作しているかを測定するベンチマークを構築しました。
LangNavBenchは、属性、空間的およびリレーショナルなキュー、カテゴリ階層の扱いに関するモデルを体系的に比較し、エンボディドナビゲーションシステムの最初の徹底した言語中心の評価を提供する。
また,クエリ可能な多層セマンティックマップを構築する手法であるMLFM(Multi-Layered Feature Map)を提案する。
MLFMは、最先端のマッピングベースのナビゲーションベースラインをLangNavデータセットで上回る。
関連論文リスト
- NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM [55.79954652783797]
VLN(Vision-and-Language Navigation)は、エージェントを具現化するための重要なスキルであり、自然言語の指示に従って3D環境をナビゲートすることができる。
従来の方法では、トラジェクトリ動画をステップバイステップでデータ拡張の指示に変換するが、そのような指示はユーザの通信スタイルとうまく一致しない。
本稿では,VLNのユーザ要求命令を生成する検索拡張生成フレームワークであるNavRAGを提案する。
論文 参考訳(メタデータ) (2025-02-16T14:17:36Z) - MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [4.941781282578696]
Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。
学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。
近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。
論文 参考訳(メタデータ) (2024-05-17T08:33:27Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。
近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。
本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:52:42Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。