論文の概要: From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation
- arxiv url: http://arxiv.org/abs/2603.08086v1
- Date: Mon, 09 Mar 2026 08:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.703486
- Title: From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation
- Title(参考訳): リアクティブからマップベースAI: オブジェクト目標ナビゲーションにおけるセマンティックゾーン推論のためのローカルLLMのチューニング
- Authors: Yudai Noda, Kanji Tanaka,
- Abstract要約: Object-Goal Navigation(ObjectNav)は、エージェントが未知の環境で対象のオブジェクトカテゴリを見つけてナビゲートする必要がある。
我々は,LLMに基づく意味推論とハイブリッドトポロジカルグリッドマッピングシステムを統合することにより,リアクティブAIから"マップベースAI"への移行を提案する。
本フレームワークでは,Llama-2モデルを用いて,言語化された対象観測から意味領域のカテゴリと目的存在確率を推定する。
- 参考スコア(独自算出の注目度): 0.7734726150561086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-Goal Navigation (ObjectNav) requires an agent to find and navigate to a target object category in unknown environments. While recent Large Language Model (LLM)-based agents exhibit zero-shot reasoning, they often rely on a "reactive" paradigm that lacks explicit spatial memory, leading to redundant exploration and myopic behaviors. To address these limitations, we propose a transition from reactive AI to "Map-Based AI" by integrating LLM-based semantic inference with a hybrid topological-grid mapping system. Our framework employs a fine-tuned Llama-2 model via Low-Rank Adaptation (LoRA) to infer semantic zone categories and target existence probabilities from verbalized object observations. In this study, a "zone" is defined as a functional area described by the set of observed objects, providing crucial semantic co-occurrence cues for finding the target. This semantic information is integrated into a topological graph, enabling the agent to prioritize high-probability areas and perform systematic exploration via Traveling Salesman Problem (TSP) optimization. Evaluations in the AI2-THOR simulator demonstrate that our approach significantly outperforms traditional frontier exploration and reactive LLM baselines, achieving a superior Success Rate (SR) and Success weighted by Path Length (SPL).
- Abstract(参考訳): Object-Goal Navigation(ObjectNav)は、エージェントが未知の環境で対象のオブジェクトカテゴリを見つけてナビゲートする必要がある。
最近のLarge Language Model(LLM)ベースのエージェントはゼロショット推論を示すが、明示的な空間記憶に欠ける「反応性」パラダイムに頼り、冗長な探索と筋電図の振る舞いをもたらすことが多い。
これらの制約に対処するため、LLMに基づく意味推論とハイブリッドトポロジカルグリッドマッピングシステムを統合することにより、リアクティブAIから"マップベースAI"への移行を提案する。
本フレームワークでは,Llama-2モデルを用いて,言語化された対象観測から意味領域のカテゴリと目的存在確率を推定する。
本研究では,「ゾーン」を観測対象の集合によって記述された機能領域として定義し,対象を見つけるための重要な意味的共起手段を提供する。
この意味情報はトポロジカルグラフに統合され、エージェントは高確率領域を優先順位付けし、トラベリングセールスマン問題(TSP)最適化を介して体系的な探索を行うことができる。
AI2-THORシミュレータによる評価では、従来のフロンティア探索と反応性LLMベースラインを著しく上回り、より優れた成功率(SR)とPath Length(SPL)による成功率(Success)を実現している。
関連論文リスト
- RAGNav: A Retrieval-Augmented Topological Reasoning Framework for Multi-Goal Visual-Language Navigation [1.7508558850131373]
Vision-Language Navigation (VLN) は、シングルポイントパスフィンディングからより挑戦的なMulti-Goal VLNへと進化している。
RAGNavは意味論的推論と物理的構造の間のギャップを埋めるフレームワークである。
論文 参考訳(メタデータ) (2026-03-04T05:31:33Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - LGR: LLM-Guided Ranking of Frontiers for Object Goal Navigation [1.1874952582465603]
本研究の目的は,大規模言語モデル(LLM)の常識推論機能を活用することで,最近のモジュラーマップレスOGNシステムを強化することである。
本稿では,フロンティア調査における訪問順序決定の課題をフロンティアランキング問題として検討する。
我々のアプローチは、LLMはフロンティアの絶対値を決定することができないが、ビューイメージをコンテキストとして単一の画像内で見る複数のフロンティア間の相対値を評価するのに優れているという最近の知見に基づいている。
論文 参考訳(メタデータ) (2025-03-26T05:15:26Z) - Diffusion as Reasoning: Enhancing Object Navigation via Diffusion Model Conditioned on LLM-based Object-Room Knowledge [9.465351278799016]
我々はObjectNavタスクの強化のための新しいアプローチを提案する。
我々は拡散モデルを訓練し、セマンティックマップにおけるオブジェクトの統計分布パターンを学習する。
ナビゲーション中の探索領域の地図を未知領域の地図を生成する条件として利用することにより,対象対象物の長期的目標推論を実現する。
論文 参考訳(メタデータ) (2024-10-29T08:10:06Z) - Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation [1.2473780585666772]
多くのVision-and-Language Navigation (VLN)アルゴリズムは、視覚的常識の欠如と限られた推論能力のために不正確な決定をする傾向がある。
本稿では,階層的空間近接の知識基盤構築を支援するために,階層的空間近接推論(HSPR)手法を提案する。
我々は、REVERIE、SOON、R2R、R4Rなどの公開データセットで実験を行い、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-18T07:51:22Z) - Probable Object Location (POLo) Score Estimation for Efficient Object
Goal Navigation [15.623723522165731]
本稿では,POLo(Probable Object Location)スコアを中心とした新しいフレームワークを提案する。
計算集約的なPOLoスコアを近似するためにトレーニングされたニューラルネットワークであるPOLoNetを導入することで、フレームワークの実用性をさらに向上する。
OVMM 2023チャレンジの第1フェーズを含む実験では,POLoNetを組み込んだエージェントが,幅広いベースライン手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-11-14T08:45:32Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。