論文の概要: VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation
- arxiv url: http://arxiv.org/abs/2602.07555v1
- Date: Sat, 07 Feb 2026 14:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.690408
- Title: VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation
- Title(参考訳): VISOR: 言語駆動型オブジェクトナビゲーションのための視覚的空間オブジェクト推論
- Authors: Francesco Taioli, Shiping Yang, Sonia Raychaudhuri, Marco Cristani, Unnat Jain, Angel X Chang,
- Abstract要約: 言語駆動のオブジェクトナビゲーションでは、エージェントがターゲットオブジェクトの自然言語記述を解釈する必要がある。
i) 既存の手法では、トレーニングデータ以上の一般化とアクションレベルの説明可能性の欠如に苦慮する視覚言語埋め込みを伴うエンドツーエンドのトレーニングモデルを使用するか、(ii) 大きな言語モデル(LLM)とオープンセットのオブジェクト検出器を備えたモジュール型のゼロショットパイプラインに頼っている。
- 参考スコア(独自算出の注目度): 24.25129798349837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-driven object navigation requires agents to interpret natural language descriptions of target objects, which combine intrinsic and extrinsic attributes for instance recognition and commonsense navigation. Existing methods either (i) use end-to-end trained models with vision-language embeddings, which struggle to generalize beyond training data and lack action-level explainability, or (ii) rely on modular zero-shot pipelines with large language models (LLMs) and open-set object detectors, which suffer from error propagation, high computational cost, and difficulty integrating their reasoning back into the navigation policy. To this end, we propose a compact 3B-parameter Vision-Language-Action (VLA) agent that performs human-like embodied reasoning for both object recognition and action selection, removing the need for stitched multi-model pipelines. Instead of raw embedding matching, our agent employs explicit image-grounded reasoning to directly answer "Is this the target object?" and "Why should I take this action?" The reasoning process unfolds in three stages: "think", "think summary", and "action", yielding improved explainability, stronger generalization, and more efficient navigation. Code and dataset available upon acceptance.
- Abstract(参考訳): 言語駆動のオブジェクトナビゲーションでは、エージェントがターゲットオブジェクトの自然言語記述を解釈する必要がある。
既存のメソッドも。
一 学習データ以上の一般化に苦慮し、行動レベルの説明責任が欠如している視覚言語埋め込みによるエンドツーエンドの訓練モデルを使用すること。
(II) 大きな言語モデル(LLM)とオープンセットのオブジェクト検出器を備えたモジュラーゼロショットパイプラインに依存しており、エラーの伝播、高い計算コスト、そしてそれらの推論をナビゲーションポリシーに統合することの難しさに悩まされている。
そこで本研究では,オブジェクト認識とアクション選択の両方に対して,人間ライクな具体的推論を行い,縫合したマルチモデルパイプラインの必要性を解消する,コンパクトな3Bパラメータ・ビジョン・ランゲージ・アクション(VLA)エージェントを提案する。
私たちのエージェントは、生の埋め込みマッチングの代わりに、明示的なイメージグラウンドの推論を使用して、"これはターゲットオブジェクトなのか?
推論プロセスは、"think"、"think summary"、"action"の3段階に展開され、説明可能性の向上、より強力な一般化、より効率的なナビゲーションをもたらす。
コードとデータセットは受理時に利用可能である。
関連論文リスト
- A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation [1.4154022683679812]
VLN(Vision-and-Language Navigation)は、エージェントが言語命令を理解し、視覚的手がかりを使って未知の環境をナビゲートしなければならない課題である。
本稿では,これらの問題に対処し,ナビゲーション性能を向上させるために,Dual Object Perception-Enhancement Network (DOPE)を提案する。
論文 参考訳(メタデータ) (2025-04-30T06:47:13Z) - Zero-shot Object Navigation with Vision-Language Models Reasoning [35.28869151048087]
本稿では,L-ZSONのためのツリー・オブ・ソート・ネットワーク(VLTNet)を用いたビジョン言語モデルを提案する。
VLTNetは、視覚言語モデル理解、セマンティックマッピング、ツリーオブ思考推論と探索、ゴール識別の4つの主要なモジュールから構成されている。
ToT推論を用いたナビゲーションは、従来のフロンティア選択と比較して、必要であればマルチパス推論プロセスとバックトラックを行う。
論文 参考訳(メタデータ) (2024-10-24T09:24:07Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。