論文の概要: MLFM: Multi-Layered Feature Maps for Richer Language Understanding in Zero-Shot Semantic Navigation
- arxiv url: http://arxiv.org/abs/2507.07299v2
- Date: Fri, 17 Oct 2025 00:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 15:58:54.39052
- Title: MLFM: Multi-Layered Feature Maps for Richer Language Understanding in Zero-Shot Semantic Navigation
- Title(参考訳): MLFM:ゼロショットセマンティックナビゲーションにおけるよりリッチな言語理解のための多層特徴マップ
- Authors: Sonia Raychaudhuri, Enrico Cancelli, Tommaso Campari, Lamberto Ballan, Manolis Savva, Angel X. Chang,
- Abstract要約: LangNavはオープンソースのマルチオブジェクトナビゲーションデータセットで、自然言語のゴール記述がある。
MLFMは、事前訓練された視覚言語機能からクエリ可能な多層セマンティックマップを構築する。
LangNavの実験では、MLFMは最先端のゼロショットマッピングベースのナビゲーションベースラインを上回っている。
- 参考スコア(独自算出の注目度): 25.63797039823049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large vision-language models has driven improvements in language-based semantic navigation, where an embodied agent must reach a target object described in natural language. Yet we still lack a clear, language-focused evaluation framework to test how well agents ground the words in their instructions. We address this gap by proposing LangNav, an open-vocabulary multi-object navigation dataset with natural language goal descriptions (e.g. 'go to the red short candle on the table') and corresponding fine-grained linguistic annotations (e.g., attributes: color=red, size=short; relations: support=on). These labels enable systematic evaluation of language understanding. To evaluate on this setting, we extend multi-object navigation task setting to Language-guided Multi-Object Navigation (LaMoN), where the agent must find a sequence of goals specified using language. Furthermore, we propose Multi-Layered Feature Map (MLFM), a novel method that builds a queryable, multi-layered semantic map from pretrained vision-language features and proves effective for reasoning over fine-grained attributes and spatial relations in goal descriptions. Experiments on LangNav show that MLFM outperforms state-of-the-art zero-shot mapping-based navigation baselines.
- Abstract(参考訳): 大規模視覚言語モデルの最近の進歩は、自然言語で記述された対象物にエンボディエージェントが到達しなければならない言語ベースのセマンティックナビゲーションの改善を促している。
しかし、エージェントが指示の言葉をいかにうまく理解するかをテストするために、言語に焦点を当てた明確な評価フレームワークがまだ欠如しています。
このギャップに対処するために、LangNavという、自然言語のゴール記述(例:「テーブル上の赤い短いろうそくに行け」)とそれに対応する粒度の細かい言語アノテーション(例:属性:色=赤、サイズ=ショート、リレーション:サポート=オン」)を備えた、オープンな語彙の多オブジェクトナビゲーションデータセットを提案する。
これらのラベルは言語理解の体系的な評価を可能にする。
この設定を評価するために,多目的ナビゲーションタスク設定をLanguage-Guided Multi-Object Navigation (LaMoN) に拡張する。
さらに,事前学習した視覚言語特徴からクエリ可能な多層セマンティックマップを構築する手法であるMLFM(Multi-Layered Feature Map)を提案する。
LangNavの実験では、MLFMは最先端のゼロショットマッピングベースのナビゲーションベースラインを上回っている。
関連論文リスト
- LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation [34.074871694181965]
目標ナビゲーションタスクであるHieraNavを導入し、エージェントは自然言語命令を解釈して4つの意味レベルでターゲットに到達する。
われわれはLanguage as a Map (LangMap)について紹介する。
LangMapはより優れたアノテーション品質を実現し、GOAT-Benchを4倍の単語で識別精度で23.8%上回る。
論文 参考訳(メタデータ) (2026-02-02T15:26:19Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - NavComposer: Composing Language Instructions for Navigation Trajectories through Action-Scene-Object Modularization [17.525269369227786]
高品質なナビゲーション命令を自動生成するフレームワークであるNavComposerを提案する。
NavComposerは、アクション、シーン、オブジェクトなどのセマンティックエンティティを明示的に分解し、それらを自然言語命令に再分解する。
データに依存しない方法で動作し、ドメイン固有のトレーニングなしで多様なナビゲーショントラジェクトリへの適応をサポートする。
NavInstrCriticは、専門家のアノテーションに大きく依存する従来のメトリクスの制限に対処する、命令品質の全体的な評価を提供する。
論文 参考訳(メタデータ) (2025-07-15T01:20:22Z) - Multimodal Spatial Language Maps for Robot Navigation and Manipulation [32.852583241593436]
マルチモーダル空間言語マップは、事前訓練されたマルチモーダル特徴と環境の3次元再構成を融合する空間地図表現である。
視覚言語マップ(VLMaps)と音声視覚言語マップ(AVLMaps)の拡張の2つの例を示す。
これらの機能は、移動ロボットやテーブルトップマニピュレータに拡張され、視覚、オーディオ、空間的手がかりによって案内されるナビゲーションとインタラクションをサポートする。
論文 参考訳(メタデータ) (2025-06-07T17:02:13Z) - NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM [55.79954652783797]
VLN(Vision-and-Language Navigation)は、エージェントを具現化するための重要なスキルであり、自然言語の指示に従って3D環境をナビゲートすることができる。
従来の方法では、トラジェクトリ動画をステップバイステップでデータ拡張の指示に変換するが、そのような指示はユーザの通信スタイルとうまく一致しない。
本稿では,VLNのユーザ要求命令を生成する検索拡張生成フレームワークであるNavRAGを提案する。
論文 参考訳(メタデータ) (2025-02-16T14:17:36Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [4.941781282578696]
Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。
学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。
近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。
論文 参考訳(メタデータ) (2024-05-17T08:33:27Z) - Open-Set 3D Semantic Instance Maps for Vision Language Navigation -- O3D-SIM [6.475074453206891]
人間は周囲のメンタルマップを作り、オブジェクトの関係を理解し、言語クエリに基づいてナビゲートする。
事例レベルの情報と環境の意味的理解が,言語指導タスクの性能向上に有効であることを示す。
本稿では,3次元のクラウドマップをインスタンスレベルの埋め込みで表現し,自然言語コマンドがクエリできるというセマンティック理解をもたらす。
論文 参考訳(メタデータ) (2024-04-27T14:20:46Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。
近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。
本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:52:42Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement
Learning [56.07190845063208]
具体的強化学習(RL)エージェントは、非言語タスクから間接的に言語を学習できるか?
エージェントが特定のオフィスを見つけることを目標とするオフィスナビゲーション環境を設計し、異なる建物(タスク)でオフィスロケーションが異なる。
我々は、RLエージェントが言語を間接的に学習できることを発見した。現在のメタRLアルゴリズムで訓練されたエージェントは、ホールドアウトレイアウトと言語フレーズでフロアプランを読むことに成功している。
論文 参考訳(メタデータ) (2023-06-14T09:48:48Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - FILM: Following Instructions in Language with Modular Methods [109.73082108379936]
近年のインボディード・インストラクションの手法は、模倣学習を用いてエンド・ツー・エンドで訓練されている。
本稿では,シーンのセマンティックマップを構築し,セマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
以上の結果から,空間記憶の明示と意味探索の方針が,状態追跡とガイダンスのためのより強固で汎用的な表現を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-12T16:40:01Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。