論文の概要: LGR: LLM-Guided Ranking of Frontiers for Object Goal Navigation
- arxiv url: http://arxiv.org/abs/2503.20241v1
- Date: Wed, 26 Mar 2025 05:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:00.638826
- Title: LGR: LLM-Guided Ranking of Frontiers for Object Goal Navigation
- Title(参考訳): LGR: 目標目標ナビゲーションのためのLLMガイド付フロンティアランキング
- Authors: Mitsuaki Uno, Kanji Tanaka, Daiki Iwata, Yudai Noda, Shoya Miyazaki, Kouki Terashima,
- Abstract要約: 本研究の目的は,大規模言語モデル(LLM)の常識推論機能を活用することで,最近のモジュラーマップレスOGNシステムを強化することである。
本稿では,フロンティア調査における訪問順序決定の課題をフロンティアランキング問題として検討する。
我々のアプローチは、LLMはフロンティアの絶対値を決定することができないが、ビューイメージをコンテキストとして単一の画像内で見る複数のフロンティア間の相対値を評価するのに優れているという最近の知見に基づいている。
- 参考スコア(独自算出の注目度): 1.1874952582465603
- License:
- Abstract: Object Goal Navigation (OGN) is a fundamental task for robots and AI, with key applications such as mobile robot image databases (MRID). In particular, mapless OGN is essential in scenarios involving unknown or dynamic environments. This study aims to enhance recent modular mapless OGN systems by leveraging the commonsense reasoning capabilities of large language models (LLMs). Specifically, we address the challenge of determining the visiting order in frontier-based exploration by framing it as a frontier ranking problem. Our approach is grounded in recent findings that, while LLMs cannot determine the absolute value of a frontier, they excel at evaluating the relative value between multiple frontiers viewed within a single image using the view image as context. We dynamically manage the frontier list by adding and removing elements, using an LLM as a ranking model. The ranking results are represented as reciprocal rank vectors, which are ideal for multi-view, multi-query information fusion. We validate the effectiveness of our method through evaluations in Habitat-Sim.
- Abstract(参考訳): Object Goal Navigation(OGN)は、ロボットとAIの基本的なタスクであり、移動ロボット画像データベース(MRID)などの重要な応用がある。
特に、未知または動的環境を含むシナリオでは、マップレスOGNが不可欠である。
本研究の目的は,大規模言語モデル(LLM)の常識推論機能を活用することで,最近のモジュラーマップレスOGNシステムを強化することである。
具体的には、フロンティア調査における訪問順序決定の課題について、フロンティアランキング問題としてフレーミングすることで解決する。
我々のアプローチは、LLMはフロンティアの絶対値を決定することができないが、ビューイメージをコンテキストとして単一の画像内で見る複数のフロンティア間の相対値を評価するのに優れているという最近の知見に基づいている。
LLMをランキングモデルとして,要素の追加と削除によってフロンティアリストを動的に管理する。
ランキング結果は相互ランクベクトルとして表現され、これはマルチビュー・マルチクエリ情報融合に最適である。
本手法の有効性をHabitat-Simの評価を通じて検証する。
関連論文リスト
- TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [3.2688425993442696]
視覚言語ナビゲーション(VLN)のためのモジュラーアプローチを提案する。
ゼロショット設定では、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を使用します。
共同意味マップを用いた他の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-11T07:09:37Z) - Correctable Landmark Discovery via Large Models for Vision-Language Navigation [89.15243018016211]
Vision-Language Navigation (VLN) は、ターゲット位置に到達するために、エージェントが言語命令に従う必要がある。
以前のVLNエージェントは、特に探索されていないシーンで正確なモダリティアライメントを行うことができない。
我々は,Large ModEls (CONSOLE) によるコレクタブルLaNdmark DiScOveryと呼ばれる新しいVLNパラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-29T03:05:59Z) - Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation [1.2473780585666772]
多くのVision-and-Language Navigation (VLN)アルゴリズムは、視覚的常識の欠如と限られた推論能力のために不正確な決定をする傾向がある。
本稿では,階層的空間近接の知識基盤構築を支援するために,階層的空間近接推論(HSPR)手法を提案する。
我々は、REVERIE、SOON、R2R、R4Rなどの公開データセットで実験を行い、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-18T07:51:22Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes [25.944819618283613]
Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
論文 参考訳(メタデータ) (2023-08-07T01:43:25Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - ReVoLT: Relational Reasoning and Voronoi Local Graph Planning for
Target-driven Navigation [1.0896567381206714]
Embodied AIは、知的な実体と現実世界の相互作用を強調する必然的なトレンドである。
グラフニューラルネットワーク(GNN)によるレイアウト関係の活用に関する研究
このタスクを分離し、階層的なフレームワークであるReVoLTを提案する。
論文 参考訳(メタデータ) (2023-01-06T05:19:56Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。