論文の概要: Diffusion as Reasoning: Enhancing Object Navigation via Diffusion Model Conditioned on LLM-based Object-Room Knowledge
- arxiv url: http://arxiv.org/abs/2410.21842v2
- Date: Fri, 06 Jun 2025 02:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:09.308223
- Title: Diffusion as Reasoning: Enhancing Object Navigation via Diffusion Model Conditioned on LLM-based Object-Room Knowledge
- Title(参考訳): 推論としての拡散: LLMに基づくオブジェクトルーム知識に基づく拡散モデルによるオブジェクトナビゲーションの強化
- Authors: Yiming Ji, Kaijie Yun, Yang Liu, Zhengpu Wang, Boyu Ma, Zongwu Xie, Hong Liu,
- Abstract要約: 我々はObjectNavタスクの強化のための新しいアプローチを提案する。
我々は拡散モデルを訓練し、セマンティックマップにおけるオブジェクトの統計分布パターンを学習する。
ナビゲーション中の探索領域の地図を未知領域の地図を生成する条件として利用することにより,対象対象物の長期的目標推論を実現する。
- 参考スコア(独自算出の注目度): 9.465351278799016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Object Navigation (ObjectNav) task aims to guide an agent to locate target objects in unseen environments using partial observations. Prior approaches have employed location prediction paradigms to achieve long-term goal reasoning, yet these methods often struggle to effectively integrate contextual relation reasoning. Alternatively, map completion-based paradigms predict long-term goals by generating semantic maps of unexplored areas. However, existing methods in this category fail to fully leverage known environmental information, resulting in suboptimal map quality that requires further improvement. In this work, we propose a novel approach to enhancing the ObjectNav task, by training a diffusion model to learn the statistical distribution patterns of objects in semantic maps, and using the map of the explored regions during navigation as the condition to generate the map of the unknown regions, thereby realizing the long-term goal reasoning of the target object, i.e., diffusion as reasoning (DAR). Meanwhile, we propose the Room Guidance method, which leverages commonsense knowledge derived from large language models (LLMs) to guide the diffusion model in generating room-aware object distributions. Based on the generated map in the unknown region, the agent sets the predicted location of the target as the goal and moves towards it. Experiments on Gibson and MP3D show the effectiveness of our method.
- Abstract(参考訳): Object Navigation(ObjectNav)タスクは、エージェントを誘導して、部分的な観察を使用して、見えない環境でターゲットオブジェクトを見つけることを目的としている。
従来の手法では、長期的目標推論を達成するために位置予測パラダイムが用いられていたが、これらの手法は文脈的関係推論を効果的に統合するのに苦労することが多い。
あるいは、地図完成に基づくパラダイムは、探索されていない領域のセマンティックマップを生成することによって、長期的な目標を予測する。
しかし、このカテゴリーの既存の手法は、既知の環境情報を十分に活用することができず、その結果、さらなる改善を必要とする、最適でない地図の品質が得られます。
本研究では,意味地図におけるオブジェクトの分布パターンを学習するための拡散モデルをトレーニングし,未知領域のマップを生成する条件としてナビゲーション中の探索領域のマップを用いて,対象対象の長期的目標推論,すなわち拡散を推論(DAR)として実現することにより,ObjectNavタスクの強化手法を提案する。
一方,大規模言語モデル(LLM)から得られたコモンセンス知識を利用して,部屋認識対象分布の生成における拡散モデルの導出を行うRoom Guidance法を提案する。
未知の領域で生成されたマップに基づいて、エージェントはターゲットの予測位置を目標として設定し、それに向かって移動する。
GibsonとMP3Dの実験により,本手法の有効性が示された。
関連論文リスト
- Adaptive Target Localization under Uncertainty using Multi-Agent Deep Reinforcement Learning with Knowledge Transfer [15.605693371392212]
本研究は,不確実環境におけるターゲット位置推定のためのMADRLに基づく新しい手法を提案する。
エージェントの観察は、環境に不可欠な情報を捉えるために最適化された方法で設計されている。
ディープラーニングモデルは、MADRLモデルからの知識に基づいて、到達不可能な場合のターゲット位置を正確に推定する。
論文 参考訳(メタデータ) (2025-01-19T02:58:22Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。
不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。
我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文 参考訳(メタデータ) (2022-12-05T18:58:58Z) - Navigating to Objects in Unseen Environments by Distance Prediction [16.023495311387478]
推定距離マップに基づいて経路計画を直接実行可能なオブジェクトゴールナビゲーションフレームワークを提案する。
具体的には,鳥眼のセマンティックマップを入力として,地図セルから対象物までの距離を推定する。
推定距離マップを用いて、エージェントは環境を探索し、人間設計または学習されたナビゲーションポリシーに基づいて対象物に移動することができる。
論文 参考訳(メタデータ) (2022-02-08T09:22:50Z) - SGoLAM: Simultaneous Goal Localization and Mapping for Multi-Object Goal
Navigation [5.447924312563365]
マルチオブジェクトゴールナビゲーションのためのシンプルで効率的なアルゴリズムであるSGoLAMを提案する。
RGB-DカメラとGPS/センサーを装備したエージェントを前提として,現実的な3D環境下でターゲットオブジェクトの列に移動させることが目的である。
SGoLAMはCVPR 2021 MultiON(Multi-Object Goal Navigation)の2位にランクインしている。
論文 参考訳(メタデータ) (2021-10-14T06:15:14Z) - Learning to Map for Active Semantic Goal Navigation [40.193928212509356]
本稿では,エージェントの視野外のセマンティックマップ生成を積極的に学習する新しいフレームワークを提案する。
我々は、エクスプロイトとエクスプロイトのバランスをとることで、異なる目的をどのように定義できるかを示す。
本手法は,Matterport3Dデータセットによって提供される視覚的に現実的な環境において検証される。
論文 参考訳(メタデータ) (2021-06-29T18:01:30Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。