論文の概要: Distilling LLM Prior to Flow Model for Generalizable Agent's Imagination in Object Goal Navigation
- arxiv url: http://arxiv.org/abs/2508.09423v1
- Date: Wed, 13 Aug 2025 01:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.723522
- Title: Distilling LLM Prior to Flow Model for Generalizable Agent's Imagination in Object Goal Navigation
- Title(参考訳): 汎用エージェントの物体ゴールナビゲーションにおけるイマジネーションのための流れモデルに先立ってLLMを蒸留する
- Authors: Badi Li, Ren-jie Lu, Yu Zhou, Jingke Meng, Wei-shi Zheng,
- Abstract要約: Object Goal Navigation (ObjectNav)タスクは、シーンの未観測領域を想像することで、特定のオブジェクトを目に見えない環境で見つけるようにエージェントに挑戦する。
本研究では,全シーンのセマンティックマップで観測された領域をブリッジすることで,室内環境の意味分布をモデル化する生成フローベースフレームワークGOALを提案する。
実験により、GOALはMP3DとGibsonの最先端性能を達成し、HM3Dへの転送設定の強い一般化を示す。
- 参考スコア(独自算出の注目度): 28.686576935257605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Object Goal Navigation (ObjectNav) task challenges agents to locate a specified object in an unseen environment by imagining unobserved regions of the scene. Prior approaches rely on deterministic and discriminative models to complete semantic maps, overlooking the inherent uncertainty in indoor layouts and limiting their ability to generalize to unseen environments. In this work, we propose GOAL, a generative flow-based framework that models the semantic distribution of indoor environments by bridging observed regions with LLM-enriched full-scene semantic maps. During training, spatial priors inferred from large language models (LLMs) are encoded as two-dimensional Gaussian fields and injected into target maps, distilling rich contextual knowledge into the flow model and enabling more generalizable completions. Extensive experiments demonstrate that GOAL achieves state-of-the-art performance on MP3D and Gibson, and shows strong generalization in transfer settings to HM3D. Codes and pretrained models are available at https://github.com/Badi-Li/GOAL.
- Abstract(参考訳): Object Goal Navigation (ObjectNav)タスクは、エージェントがシーンの観測されていない領域を想像することで、見えない環境で特定のオブジェクトを見つけることを課題とする。
それまでのアプローチは、決定論的かつ差別的なモデルに頼ってセマンティックマップを完成させ、屋内のレイアウトに固有の不確実性を見落とし、目に見えない環境に一般化する能力を制限する。
本研究では,LLMに富んだフルシーンのセマンティックマップを用いて,観測領域をブリッジすることで室内環境のセマンティック分布をモデル化する生成フローベースフレームワークGOALを提案する。
訓練中、大規模言語モデル(LLM)から推定される空間的先行情報は二次元ガウス場として符号化され、ターゲットマップに注入され、豊かな文脈知識をフローモデルに蒸留し、より一般化可能な補完を可能にする。
GOALはMP3DとGibsonの最先端性能を実証し,HM3Dへの転送設定を強く一般化した。
コードと事前訓練されたモデルはhttps://github.com/Badi-Li/GOAL.comで公開されている。
関連論文リスト
- SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:04:54Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - Diffusion as Reasoning: Enhancing Object Navigation via Diffusion Model Conditioned on LLM-based Object-Room Knowledge [9.465351278799016]
我々はObjectNavタスクの強化のための新しいアプローチを提案する。
我々は拡散モデルを訓練し、セマンティックマップにおけるオブジェクトの統計分布パターンを学習する。
ナビゲーション中の探索領域の地図を未知領域の地図を生成する条件として利用することにより,対象対象物の長期的目標推論を実現する。
論文 参考訳(メタデータ) (2024-10-29T08:10:06Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [36.31724466541213]
ゼロショットナビゲーションアプローチであるビジョンランゲージフロンティアマップ(VLFM)を導入する。
VLFMは人間の推論にインスパイアされ、新しい環境における見えないセマンティックなオブジェクトにナビゲートするように設計されている。
我々は,ギブソン,ハビタット・マテルポート3D (HM3D) およびマターポート3D (MP3D) のシミュレータを用いて,写真実写環境における VLFM の評価を行った。
論文 参考訳(メタデータ) (2023-12-06T04:02:28Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。
不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。
我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文 参考訳(メタデータ) (2022-12-05T18:58:58Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。