論文の概要: OpenObject-NAV: Open-Vocabulary Object-Oriented Navigation Based on Dynamic Carrier-Relationship Scene Graph
- arxiv url: http://arxiv.org/abs/2409.18743v1
- Date: Fri, 27 Sep 2024 13:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 14:25:07.512978
- Title: OpenObject-NAV: Open-Vocabulary Object-Oriented Navigation Based on Dynamic Carrier-Relationship Scene Graph
- Title(参考訳): OpenObject-NAV:動的キャリア関連シーングラフに基づくオープン語彙オブジェクト指向ナビゲーション
- Authors: Yujie Tang, Meiling Wang, Yinan Deng, Zibo Zheng, Jiagui Zhong, Yufeng Yue,
- Abstract要約: 本稿では、頻繁に使用されるオブジェクトと静的キャリアの関係をキャプチャする。
本稿では,ナビゲーションプロセスをマルコフ決定プロセスとしてモデル化するインスタンスナビゲーション戦略を提案する。
その結果,CRSGを更新することで,移動目標への移動を効率的に行うことができることがわかった。
- 参考スコア(独自算出の注目度): 10.475404599532157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In everyday life, frequently used objects like cups often have unfixed positions and multiple instances within the same category, and their carriers frequently change as well. As a result, it becomes challenging for a robot to efficiently navigate to a specific instance. To tackle this challenge, the robot must capture and update scene changes and plans continuously. However, current object navigation approaches primarily focus on semantic-level and lack the ability to dynamically update scene representation. This paper captures the relationships between frequently used objects and their static carriers. It constructs an open-vocabulary Carrier-Relationship Scene Graph (CRSG) and updates the carrying status during robot navigation to reflect the dynamic changes of the scene. Based on the CRSG, we further propose an instance navigation strategy that models the navigation process as a Markov Decision Process. At each step, decisions are informed by Large Language Model's commonsense knowledge and visual-language feature similarity. We designed a series of long-sequence navigation tasks for frequently used everyday items in the Habitat simulator. The results demonstrate that by updating the CRSG, the robot can efficiently navigate to moved targets. Additionally, we deployed our algorithm on a real robot and validated its practical effectiveness.
- Abstract(参考訳): 日常では、カップのような頻繁に使われる物体は固定されていない位置を持ち、同じカテゴリー内の複数のインスタンスを持ち、キャリアも頻繁に変化する。
その結果、ロボットが特定のインスタンスに効率的にナビゲートすることが困難になる。
この課題に対処するためには、ロボットはシーンの変更や計画の更新を継続的に行う必要がある。
しかし、現在のオブジェクトナビゲーションアプローチは、主にセマンティックレベルに焦点を当てており、シーン表現を動的に更新する能力がない。
本稿では、頻繁に使用されるオブジェクトと静的キャリアの関係をキャプチャする。
オープンボキャブラリ・キャリア・リレーショナル・シーングラフ(CRSG)を構築し、ロボットナビゲーション中の搬送状態を更新し、シーンの動的変化を反映する。
さらに、CRSGに基づいて、ナビゲーションプロセスをマルコフ決定プロセスとしてモデル化するインスタンスナビゲーション戦略を提案する。
各ステップにおいて、決定はLarge Language Modelの常識知識と視覚言語の特徴的類似性によって通知される。
本研究では,ハビタットシミュレーターにおいて,日常的に頻繁に使用される一連の時系列ナビゲーションタスクを設計した。
その結果,CRSGを更新することで,移動目標への移動を効率的に行うことができることがわかった。
さらに,本アルゴリズムを実ロボットに展開し,その実用性を検証した。
関連論文リスト
- Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot [0.8515309662618664]
本稿では,人間とロボットのインタラクションにおける重要な課題に対処するロボット制御アーキテクチャを提案する。
アーキテクチャはLarge Language Modelsを使用して、自然言語コマンドを含む多様な情報ソースを統合する。
このアーキテクチャは、動的環境における適応性、タスク効率、人間とロボットのコラボレーションを強化する。
論文 参考訳(メタデータ) (2024-11-22T15:58:26Z) - HEIGHT: Heterogeneous Interaction Graph Transformer for Robot Navigation in Crowded and Constrained Environments [8.974071308749007]
廊下や家具などの環境制約のある密集した対話型群集におけるロボットナビゲーションの問題点について検討する。
従来の手法ではエージェントと障害物間のあらゆる種類の相互作用を考慮できないため、安全で非効率なロボット経路につながる。
本稿では,ロボットナビゲーションポリシーを強化学習で学習するための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T00:56:35Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。
SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。
実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-21T15:54:33Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Learning Synthetic to Real Transfer for Localization and Navigational
Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。
この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。
ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文 参考訳(メタデータ) (2020-11-20T08:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。