Fugu-MT 論文翻訳(概要): OpenObject-NAV: Open-Vocabulary Object-Oriented Navigation Based on Dynamic Carrier-Relationship Scene Graph

論文の概要: OpenObject-NAV: Open-Vocabulary Object-Oriented Navigation Based on Dynamic Carrier-Relationship Scene Graph

arxiv url: http://arxiv.org/abs/2409.18743v1
Date: Fri, 27 Sep 2024 13:33:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 14:25:07.512978
Title: OpenObject-NAV: Open-Vocabulary Object-Oriented Navigation Based on Dynamic Carrier-Relationship Scene Graph
Title（参考訳）: OpenObject-NAV:動的キャリア関連シーングラフに基づくオープン語彙オブジェクト指向ナビゲーション
Authors: Yujie Tang, Meiling Wang, Yinan Deng, Zibo Zheng, Jiagui Zhong, Yufeng Yue,
Abstract要約: 本稿では、頻繁に使用されるオブジェクトと静的キャリアの関係をキャプチャする。本稿では,ナビゲーションプロセスをマルコフ決定プロセスとしてモデル化するインスタンスナビゲーション戦略を提案する。その結果,CRSGを更新することで,移動目標への移動を効率的に行うことができることがわかった。
参考スコア（独自算出の注目度）: 10.475404599532157
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In everyday life, frequently used objects like cups often have unfixed positions and multiple instances within the same category, and their carriers frequently change as well. As a result, it becomes challenging for a robot to efficiently navigate to a specific instance. To tackle this challenge, the robot must capture and update scene changes and plans continuously. However, current object navigation approaches primarily focus on semantic-level and lack the ability to dynamically update scene representation. This paper captures the relationships between frequently used objects and their static carriers. It constructs an open-vocabulary Carrier-Relationship Scene Graph (CRSG) and updates the carrying status during robot navigation to reflect the dynamic changes of the scene. Based on the CRSG, we further propose an instance navigation strategy that models the navigation process as a Markov Decision Process. At each step, decisions are informed by Large Language Model's commonsense knowledge and visual-language feature similarity. We designed a series of long-sequence navigation tasks for frequently used everyday items in the Habitat simulator. The results demonstrate that by updating the CRSG, the robot can efficiently navigate to moved targets. Additionally, we deployed our algorithm on a real robot and validated its practical effectiveness.
Abstract（参考訳）: 日常では、カップのような頻繁に使われる物体は固定されていない位置を持ち、同じカテゴリー内の複数のインスタンスを持ち、キャリアも頻繁に変化する。その結果、ロボットが特定のインスタンスに効率的にナビゲートすることが困難になる。この課題に対処するためには、ロボットはシーンの変更や計画の更新を継続的に行う必要がある。しかし、現在のオブジェクトナビゲーションアプローチは、主にセマンティックレベルに焦点を当てており、シーン表現を動的に更新する能力がない。本稿では、頻繁に使用されるオブジェクトと静的キャリアの関係をキャプチャする。オープンボキャブラリ・キャリア・リレーショナル・シーングラフ(CRSG)を構築し、ロボットナビゲーション中の搬送状態を更新し、シーンの動的変化を反映する。さらに、CRSGに基づいて、ナビゲーションプロセスをマルコフ決定プロセスとしてモデル化するインスタンスナビゲーション戦略を提案する。各ステップにおいて、決定はLarge Language Modelの常識知識と視覚言語の特徴的類似性によって通知される。本研究では,ハビタットシミュレーターにおいて,日常的に頻繁に使用される一連の時系列ナビゲーションタスクを設計した。その結果,CRSGを更新することで,移動目標への移動を効率的に行うことができることがわかった。さらに,本アルゴリズムを実ロボットに展開し,その実用性を検証した。

関連論文リスト

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文参考訳（メタデータ） (2026-03-05T17:02:22Z)
ActLoc: Learning to Localize on the Move via Active Viewpoint Selection [52.909507162638526]
ActLocは、一般的なロボットナビゲーションタスクのローカライズ精度を高めるためのアクティブな視点対応計画フレームワークである。 ActLocの中核となるのは、視点選択のために、大規模に訓練された注意ベースのモデルである。 ActLocは、単一視点選択における最先端の結果を達成し、完全な軌道計画に効果的に一般化する。
論文参考訳（メタデータ） (2025-08-28T16:36:02Z)
Utilizing Vision-Language Models as Action Models for Intent Recognition and Assistance [2.2893865000399938]
本稿では,視覚言語モデル (VLM) とテキストのみの言語モデル (LLM) によるGUIDERの拡張について述べる。ビジョンパイプラインは、候補対象の作物をVLMに供給し、オペレータのプロンプトが与えられた場合、その関連性を評価する。組み合わせた信念がしきい値を超えると、自律性が変化し、ロボットは所望の領域に移動し、所望の物体を回収することができる。
論文参考訳（メタデータ） (2025-08-14T22:19:09Z)
Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation [12.561993540768729]
サービスロボットのための解釈可能かつシーン対応ナビゲーションフレームワークLE-Navについて述べる。ゼロショットシーン理解を実現するために,ワンショット例とチェーン・オブ・シークレット・プロンプト戦略を利用する。実験の結果、LE-Navは多種多様なプランナーやシナリオにまたがる人間レベルのチューニングを実現するためのハイパーパラメータを生成できることがわかった。
論文参考訳（メタデータ） (2025-07-15T05:37:24Z)
General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting [9.157222032441531]
Agentic Robotic Navigation Architecture (ARNA)は、LVLMベースのエージェントに知覚、推論、ナビゲーションツールのライブラリを装備する汎用ナビゲーションフレームワークである。実行時に、エージェントは自律的にタスク固有のナビゲーションを定義し、実行し、ロボットモジュールを反復的にクエリし、マルチモーダル入力を推論し、適切なナビゲーションアクションを選択する。 ARNAは最先端のパフォーマンスを達成し、手作りの計画や固定された入力表現、既存の地図に頼ることなく、効果的な探索、ナビゲーション、具体化された質問応答を実証する。
論文参考訳（メタデータ） (2025-06-20T20:06:14Z)
Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T10:30:40Z)
Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot [0.8515309662618664]
本稿では,人間とロボットのインタラクションにおける重要な課題に対処するロボット制御アーキテクチャを提案する。アーキテクチャはLarge Language Modelsを使用して、自然言語コマンドを含む多様な情報ソースを統合する。このアーキテクチャは、動的環境における適応性、タスク効率、人間とロボットのコラボレーションを強化する。
論文参考訳（メタデータ） (2024-11-22T15:58:26Z)
HEIGHT: Heterogeneous Interaction Graph Transformer for Robot Navigation in Crowded and Constrained Environments [8.974071308749007]
廊下や家具などの環境制約のある密集した対話型群集におけるロボットナビゲーションの問題点について検討する。従来の手法ではエージェントと障害物間のあらゆる種類の相互作用を考慮できないため、安全で非効率なロボット経路につながる。本稿では,ロボットナビゲーションポリシーを強化学習で学習するための構造化フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-19T00:56:35Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。 GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文参考訳（メタデータ） (2024-04-09T20:40:00Z)
Right Place, Right Time! Dynamizing Topological Graphs for Embodied Navigation [55.581423861790945]
身体的ナビゲーションのタスクは、探索中にシーンのトポロジカルグラフを構築することを伴うことが多い。我々は、オブジェクト遷移グラフ(OTG)と呼ばれる静的トポロジカルグラフをダイナマイズするために、構造化されたオブジェクト遷移を導入する。 OTGは、人間の習慣にインスパイアされた構造化経路に従って、ポータブルターゲットをシミュレートする。
論文参考訳（メタデータ） (2024-03-14T22:33:22Z)
Interactive Semantic Map Representation for Skill-based Visual Object Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文参考訳（メタデータ） (2023-11-07T16:30:12Z)
Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models [8.668211481067457]
Co-NavGPTは、ビジョン言語モデル(VLM)をグローバルプランナーとして統合する新しいフレームワークである。 Co-NavGPTは、多様な視点を持つ複数のロボットのサブマップを統一されたグローバルマップに集約する。 VLMはこの情報を使って、ロボット全体のフロンティアを割り当て、協調的で効率的な探索を容易にする。
論文参考訳（メタデータ） (2023-10-11T23:17:43Z)
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文参考訳（メタデータ） (2023-10-11T21:07:14Z)
SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。 SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-21T15:54:33Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文参考訳（メタデータ） (2021-04-28T22:46:41Z)
Learning Synthetic to Real Transfer for Localization and Navigational Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文参考訳（メタデータ） (2020-11-20T08:37:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。