Fugu-MT 論文翻訳(概要): GoalVLM: VLM-driven Object Goal Navigation for Multi-Agent System

論文の概要: GoalVLM: VLM-driven Object Goal Navigation for Multi-Agent System

arxiv url: http://arxiv.org/abs/2603.18210v1
Date: Wed, 18 Mar 2026 18:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:56.960153
Title: GoalVLM: VLM-driven Object Goal Navigation for Multi-Agent System
Title（参考訳）: GoalVLM:マルチエージェントシステムのためのVLM駆動のオブジェクトゴールナビゲーション
Authors: MoniJesu James, Amir Atef Habel, Aleksey Fedoseev, Dzmitry Tsetserokou,
Abstract要約: ゼロショットでオープンなオブジェクトナビゲーションのための協調型マルチエージェントフレームワークであるGoalVLMを提案する。 GoalVLMは、VLM(Vision-Language Model)を直接決定ループに統合し、SAM3はテキストプロンプト検出とセグメンテーション、SpaceOMは空間推論を行う。 GOAT-Bench val_unseenにおけるGoalVLMの評価を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Object-goal navigation has traditionally been limited to ground robots with closed-set object vocabularies. Existing multi-agent approaches depend on precomputed probabilistic graphs tied to fixed category sets, precluding generalization to novel goals at test time. We present GoalVLM, a cooperative multi-agent framework for zero-shot, open-vocabulary object navigation. GoalVLM integrates a Vision-Language Model (VLM) directly into the decision loop, SAM3 for text-prompted detection and segmentation, and SpaceOM for spatial reasoning, enabling agents to interpret free-form language goals and score frontiers via zero-shot semantic priors without retraining. Each agent builds a BEV semantic map from depth-projected voxel splatting, while a Goal Projector back-projects detections through calibrated depth into the map for reliable goal localization. A constraint-guided reasoning layer evaluates frontiers through a structured prompt chain (scene captioning, room-type classification, perception gating, multi-frontier ranking), injecting commonsense priors into exploration. We evaluate GoalVLM on GOAT-Bench val_unseen (360 multi-subtask episodes, 1032 sequential object-goal subtasks, HM3D scenes), where each episode requires navigating to a chain of 5-7 open-vocabulary targets. GoalVLM with N=2 agents achieves 55.8% subtask SR and 18.3% SPL, competitive with state-of-the-art methods while requiring no task-specific training. Ablation studies confirm the contributions of VLM-guided frontier reasoning and depth-projected goal localization.
Abstract（参考訳）: オブジェクトゴールナビゲーションは、伝統的にクローズドセットのオブジェクト語彙を持つ地上ロボットに限られてきた。既存のマルチエージェントアプローチは、固定された圏集合に関連付けられた事前計算された確率グラフに依存し、テスト時に新しい目標への一般化を先導する。ゼロショットでオープンなオブジェクトナビゲーションのための協調型マルチエージェントフレームワークであるGoalVLMを提案する。 GoalVLMは、VLM(Vision-Language Model)を直接決定ループに統合し、テキストプロンプト検出とセグメンテーションのためのSAM3と空間推論のためのSpaceOMを統合し、エージェントは自由形式の言語目標を解釈し、ゼロショットセマンティックオーダをトレーニングすることなくフロンティアをスコアする。各エージェントは、深さ投影されたボクセルスプラッティングからBEVセマンティックマップを構築し、ゴールプロジェクターは、信頼性の高いゴールローカライゼーションのために、キャリブレーションされた深さを通して検出をバックプロジェクタにバックプロジェクターする。制約誘導推論層は、構造化プロンプトチェーン(シーンキャプション、ルームタイプ分類、知覚ゲーティング、マルチフロンティアランキング)を通じてフロンティアを評価し、コモンセンス先行を探索に注入する。 GOAT-Bench val_unseen (360のマルチサブタスク, 1032のシーケンシャルオブジェクトゴールサブタスク, HM3Dのシーン) におけるGoalVLMの評価を行った。 N=2のエージェントによるゴールVLMは55.8%のサブタスクSRと18.3%のSPLを達成する。アブレーション研究は、VLM誘導フロンティア推論と深さ計画されたゴールローカライゼーションの寄与を裏付ける。

関連論文リスト

AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文参考訳（メタデータ） (2026-03-18T12:43:47Z)
OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms [33.40889181799252]
言語誘導型エンボディナビゲーションでは、エージェントがオブジェクト参照命令を解釈し、複数の部屋を探索し、参照されたターゲットをローカライズし、それに対する信頼できる動きを実行する必要がある。 OmniVLNは、全方位3次元知覚とトークン効率の高い階層的推論を、空中と地上の両方で組み合わせたゼロショット視覚言語ナビゲーションフレームワークである。実験により、提案した階層インタフェースは空間参照精度を77.27%から93.18%に改善し、マルチルームの乱雑な設定で累積的なプロンプトトークンを61.7%削減し、フラットで最大11.68%のナビゲーション成功率向上を実現した。
論文参考訳（メタデータ） (2026-03-18T04:26:30Z)
TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文参考訳（メタデータ） (2026-03-03T13:28:07Z)
3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。 3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文参考訳（メタデータ） (2026-02-12T16:41:26Z)
ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文参考訳（メタデータ） (2026-01-26T19:09:20Z)
History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文参考訳（メタデータ） (2025-06-19T21:50:16Z)
DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes [76.24687327731031]
まず,DivSceneを導入することにより,オープン語彙オブジェクトナビゲーションの課題について検討する。私たちのデータセットは、既存のデータセットよりもターゲットオブジェクトやシーンタイプがはるかに多様です。我々はLVLMを微調整し、CoTの説明で次の動作を予測する。
論文参考訳（メタデータ） (2024-10-03T17:49:28Z)
HM3D-OVON: A Dataset and Benchmark for Open-Vocabulary Object Goal Navigation [39.54854283833085]
Habitat-Matterport 3D Open Vocabulary Object Goal Navigation データセット(HM3D-OVON)を提案する。 HM3D-OVONは、379の異なるカテゴリにわたる15k以上の注釈付きオブジェクトのインスタンスを組み込んでいる。我々は,HM3D-OVONを用いて,オープン語彙のObjectNavエージェントを訓練し,高い性能を実現し,最先端のObjectNavアプローチよりもローカライゼーションやアクティベーションノイズに頑健であることを確認した。
論文参考訳（メタデータ） (2024-09-22T02:12:29Z)
Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文参考訳（メタデータ） (2024-07-08T12:52:46Z)
SGoLAM: Simultaneous Goal Localization and Mapping for Multi-Object Goal Navigation [5.447924312563365]
マルチオブジェクトゴールナビゲーションのためのシンプルで効率的なアルゴリズムであるSGoLAMを提案する。 RGB-DカメラとGPS/センサーを装備したエージェントを前提として,現実的な3D環境下でターゲットオブジェクトの列に移動させることが目的である。 SGoLAMはCVPR 2021 MultiON(Multi-Object Goal Navigation)の2位にランクインしている。
論文参考訳（メタデータ） (2021-10-14T06:15:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。