論文の概要: Diffusion as Reasoning: Enhancing Object Goal Navigation with LLM-Biased Diffusion Model
- arxiv url: http://arxiv.org/abs/2410.21842v1
- Date: Tue, 29 Oct 2024 08:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:08.612437
- Title: Diffusion as Reasoning: Enhancing Object Goal Navigation with LLM-Biased Diffusion Model
- Title(参考訳): 推論としての拡散: LLM-Biased Diffusion Modelによる物体目標ナビゲーションの強化
- Authors: Yiming Ji, Yang Liu, Zhengpu Wang, Boyu Ma, Zongwu Xie, Hong Liu,
- Abstract要約: 本稿では,オブジェクトの統計分布パターンを意味マップで学習するために拡散モデルを訓練することにより,ObjectNavタスクの解法を提案する。
また,大域的対象バイアスと局所的LLMバイアス法を提案し,対象オブジェクトをより効果的に生成するために拡散モデルを制約することができる。
未知の領域で生成されたマップに基づいて、エージェントはターゲットの予測位置を目標として設定し、それに向かって移動する。
- 参考スコア(独自算出の注目度): 9.939998139837426
- License:
- Abstract: The Object Goal Navigation (ObjectNav) task requires the agent to navigate to a specified target in an unseen environment. Since the environment layout is unknown, the agent needs to perform semantic reasoning to infer the potential location of the target, based on its accumulated memory of the environment during the navigation process. Diffusion models have been shown to be able to learn the distribution relationships between features in RGB images, and thus generate new realistic images.In this work, we propose a new approach to solving the ObjectNav task, by training a diffusion model to learn the statistical distribution patterns of objects in semantic maps, and using the map of the explored regions during navigation as the condition to generate the map of the unknown regions, thereby realizing the semantic reasoning of the target object, i.e., diffusion as reasoning (DAR). Meanwhile, we propose the global target bias and local LLM bias methods, where the former can constrain the diffusion model to generate the target object more effectively, and the latter utilizes the common sense knowledge extracted from the LLM to improve the generalization of the reasoning process. Based on the generated map in the unknown region, the agent sets the predicted location of the target as the goal and moves towards it. Experiments on Gibson and MP3D show the effectiveness of our method.
- Abstract(参考訳): Object Goal Navigation(ObjectNav)タスクは、エージェントが見えない環境で指定されたターゲットにナビゲートする必要がある。
環境レイアウトが不明であるため、エージェントはナビゲーション中の環境の蓄積した記憶に基づいて、ターゲットの潜在的な位置を推測するためにセマンティック推論を行う必要がある。
拡散モデルは,RGB画像の特徴間の分布関係を学習し,新たな現実的な画像を生成することが示されている。本研究では,オブジェクトの統計分布パターンを意味マップで学習するための拡散モデルを訓練し,ナビゲーション中の探索領域のマップを未知領域のマップを生成する条件として使用することにより,対象オブジェクトの意味論的推論,すなわち拡散を推論(DAR)として実現することにより,ObjectNavタスクの解法を提案する。
一方,大域的対象バイアスと局所的LLMバイアス法では,前者は拡散モデルを制約して対象オブジェクトをより効果的に生成し,後者はLLMから抽出した共通感覚知識を用いて推論プロセスの一般化を改善する。
未知の領域で生成されたマップに基づいて、エージェントはターゲットの予測位置を目標として設定し、それに向かって移動する。
GibsonとMP3Dの実験により,本手法の有効性が示された。
関連論文リスト
- GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。
不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。
我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文 参考訳(メタデータ) (2022-12-05T18:58:58Z) - Navigating to Objects in Unseen Environments by Distance Prediction [16.023495311387478]
推定距離マップに基づいて経路計画を直接実行可能なオブジェクトゴールナビゲーションフレームワークを提案する。
具体的には,鳥眼のセマンティックマップを入力として,地図セルから対象物までの距離を推定する。
推定距離マップを用いて、エージェントは環境を探索し、人間設計または学習されたナビゲーションポリシーに基づいて対象物に移動することができる。
論文 参考訳(メタデータ) (2022-02-08T09:22:50Z) - SGoLAM: Simultaneous Goal Localization and Mapping for Multi-Object Goal
Navigation [5.447924312563365]
マルチオブジェクトゴールナビゲーションのためのシンプルで効率的なアルゴリズムであるSGoLAMを提案する。
RGB-DカメラとGPS/センサーを装備したエージェントを前提として,現実的な3D環境下でターゲットオブジェクトの列に移動させることが目的である。
SGoLAMはCVPR 2021 MultiON(Multi-Object Goal Navigation)の2位にランクインしている。
論文 参考訳(メタデータ) (2021-10-14T06:15:14Z) - Learning to Map for Active Semantic Goal Navigation [40.193928212509356]
本稿では,エージェントの視野外のセマンティックマップ生成を積極的に学習する新しいフレームワークを提案する。
我々は、エクスプロイトとエクスプロイトのバランスをとることで、異なる目的をどのように定義できるかを示す。
本手法は,Matterport3Dデータセットによって提供される視覚的に現実的な環境において検証される。
論文 参考訳(メタデータ) (2021-06-29T18:01:30Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。