Fugu-MT 論文翻訳(概要): Diffusion as Reasoning: Enhancing Object Goal Navigation with LLM-Biased Diffusion Model

論文の概要: Diffusion as Reasoning: Enhancing Object Goal Navigation with LLM-Biased Diffusion Model

arxiv url: http://arxiv.org/abs/2410.21842v1
Date: Tue, 29 Oct 2024 08:10:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.755876
Title: Diffusion as Reasoning: Enhancing Object Goal Navigation with LLM-Biased Diffusion Model
Title（参考訳）: 推論としての拡散: LLM-Biased Diffusion Modelによる物体目標ナビゲーションの強化
Authors: Yiming Ji, Yang Liu, Zhengpu Wang, Boyu Ma, Zongwu Xie, Hong Liu,
Abstract要約: 本稿では,オブジェクトの統計分布パターンを意味マップで学習するために拡散モデルを訓練することにより,ObjectNavタスクの解法を提案する。また,大域的対象バイアスと局所的LLMバイアス法を提案し,対象オブジェクトをより効果的に生成するために拡散モデルを制約することができる。未知の領域で生成されたマップに基づいて、エージェントはターゲットの予測位置を目標として設定し、それに向かって移動する。
参考スコア（独自算出の注目度）: 9.939998139837426
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Object Goal Navigation (ObjectNav) task requires the agent to navigate to a specified target in an unseen environment. Since the environment layout is unknown, the agent needs to perform semantic reasoning to infer the potential location of the target, based on its accumulated memory of the environment during the navigation process. Diffusion models have been shown to be able to learn the distribution relationships between features in RGB images, and thus generate new realistic images.In this work, we propose a new approach to solving the ObjectNav task, by training a diffusion model to learn the statistical distribution patterns of objects in semantic maps, and using the map of the explored regions during navigation as the condition to generate the map of the unknown regions, thereby realizing the semantic reasoning of the target object, i.e., diffusion as reasoning (DAR). Meanwhile, we propose the global target bias and local LLM bias methods, where the former can constrain the diffusion model to generate the target object more effectively, and the latter utilizes the common sense knowledge extracted from the LLM to improve the generalization of the reasoning process. Based on the generated map in the unknown region, the agent sets the predicted location of the target as the goal and moves towards it. Experiments on Gibson and MP3D show the effectiveness of our method.
Abstract（参考訳）: Object Goal Navigation(ObjectNav)タスクは、エージェントが見えない環境で指定されたターゲットにナビゲートする必要がある。環境レイアウトが不明であるため、エージェントはナビゲーション中の環境の蓄積した記憶に基づいて、ターゲットの潜在的な位置を推測するためにセマンティック推論を行う必要がある。拡散モデルは,RGB画像の特徴間の分布関係を学習し,新たな現実的な画像を生成することが示されている。本研究では,オブジェクトの統計分布パターンを意味マップで学習するための拡散モデルを訓練し,ナビゲーション中の探索領域のマップを未知領域のマップを生成する条件として使用することにより,対象オブジェクトの意味論的推論,すなわち拡散を推論(DAR)として実現することにより,ObjectNavタスクの解法を提案する。一方,大域的対象バイアスと局所的LLMバイアス法では,前者は拡散モデルを制約して対象オブジェクトをより効果的に生成し,後者はLLMから抽出した共通感覚知識を用いて推論プロセスの一般化を改善する。未知の領域で生成されたマップに基づいて、エージェントはターゲットの予測位置を目標として設定し、それに向かって移動する。 GibsonとMP3Dの実験により,本手法の有効性が示された。

関連論文リスト

ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文参考訳（メタデータ） (2026-01-26T19:09:20Z)
FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。 FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。 FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-11-30T18:16:09Z)
SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-04T03:04:54Z)
Adaptive Target Localization under Uncertainty using Multi-Agent Deep Reinforcement Learning with Knowledge Transfer [15.605693371392212]
本研究は,不確実環境におけるターゲット位置推定のためのMADRLに基づく新しい手法を提案する。エージェントの観察は、環境に不可欠な情報を捉えるために最適化された方法で設計されている。ディープラーニングモデルは、MADRLモデルからの知識に基づいて、到達不可能な場合のターゲット位置を正確に推定する。
論文参考訳（メタデータ） (2025-01-19T02:58:22Z)
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。 MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文参考訳（メタデータ） (2024-11-25T14:27:55Z)
GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。 GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文参考訳（メタデータ） (2024-06-04T02:59:36Z)
Mapping High-level Semantic Regions in Indoor Environments without Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文参考訳（メタデータ） (2024-03-11T18:09:50Z)
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文参考訳（メタデータ） (2023-10-11T21:07:14Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文参考訳（メタデータ） (2023-05-26T13:38:33Z)
PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文参考訳（メタデータ） (2022-12-05T18:58:58Z)
Navigating to Objects in Unseen Environments by Distance Prediction [16.023495311387478]
推定距離マップに基づいて経路計画を直接実行可能なオブジェクトゴールナビゲーションフレームワークを提案する。具体的には,鳥眼のセマンティックマップを入力として,地図セルから対象物までの距離を推定する。推定距離マップを用いて、エージェントは環境を探索し、人間設計または学習されたナビゲーションポリシーに基づいて対象物に移動することができる。
論文参考訳（メタデータ） (2022-02-08T09:22:50Z)
SGoLAM: Simultaneous Goal Localization and Mapping for Multi-Object Goal Navigation [5.447924312563365]
マルチオブジェクトゴールナビゲーションのためのシンプルで効率的なアルゴリズムであるSGoLAMを提案する。 RGB-DカメラとGPS/センサーを装備したエージェントを前提として,現実的な3D環境下でターゲットオブジェクトの列に移動させることが目的である。 SGoLAMはCVPR 2021 MultiON(Multi-Object Goal Navigation)の2位にランクインしている。
論文参考訳（メタデータ） (2021-10-14T06:15:14Z)
Learning to Map for Active Semantic Goal Navigation [40.193928212509356]
本稿では,エージェントの視野外のセマンティックマップ生成を積極的に学習する新しいフレームワークを提案する。我々は、エクスプロイトとエクスプロイトのバランスをとることで、異なる目的をどのように定義できるかを示す。本手法は,Matterport3Dデータセットによって提供される視覚的に現実的な環境において検証される。
論文参考訳（メタデータ） (2021-06-29T18:01:30Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)
Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文参考訳（メタデータ） (2020-07-01T17:52:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。