論文の概要: LOVON: Legged Open-Vocabulary Object Navigator
- arxiv url: http://arxiv.org/abs/2507.06747v1
- Date: Wed, 09 Jul 2025 11:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.561543
- Title: LOVON: Legged Open-Vocabulary Object Navigator
- Title(参考訳): LOVON: オープン語彙オブジェクトナビゲータ
- Authors: Daojie Peng, Jiahang Cao, Qiang Zhang, Jun Ma,
- Abstract要約: 階層型タスク計画のための大規模言語モデルとオープン語彙視覚検出モデルを統合する新しいフレームワークを提案する。
視覚的ジッタリング、ブラインドゾーン、一時的な目標損失といった現実的な課題に対処するために、私たちは専用のソリューションを設計しました。
また,自律ナビゲーション,タスク適応,堅牢なタスク完了におけるLOVONの機能を保証するロボットのための機能実行ロジックも開発した。
- 参考スコア(独自算出の注目度): 9.600429521100041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object navigation in open-world environments remains a formidable and pervasive challenge for robotic systems, particularly when it comes to executing long-horizon tasks that require both open-world object detection and high-level task planning. Traditional methods often struggle to integrate these components effectively, and this limits their capability to deal with complex, long-range navigation missions. In this paper, we propose LOVON, a novel framework that integrates large language models (LLMs) for hierarchical task planning with open-vocabulary visual detection models, tailored for effective long-range object navigation in dynamic, unstructured environments. To tackle real-world challenges including visual jittering, blind zones, and temporary target loss, we design dedicated solutions such as Laplacian Variance Filtering for visual stabilization. We also develop a functional execution logic for the robot that guarantees LOVON's capabilities in autonomous navigation, task adaptation, and robust task completion. Extensive evaluations demonstrate the successful completion of long-sequence tasks involving real-time detection, search, and navigation toward open-vocabulary dynamic targets. Furthermore, real-world experiments across different legged robots (Unitree Go2, B2, and H1-2) showcase the compatibility and appealing plug-and-play feature of LOVON.
- Abstract(参考訳): オープンワールド環境でのオブジェクトナビゲーションは、特に、オープンワールドのオブジェクト検出とハイレベルなタスク計画の両方を必要とする長い水平タスクの実行に関して、ロボットシステムにとって、恐ろしいほど広範囲にわたる課題である。
従来の手法はこれらのコンポーネントを効果的に統合するのに苦労することが多く、これにより複雑な長距離航法ミッションに対処する能力が制限される。
本稿では,大規模言語モデル(LLM)を階層型タスク計画に組み込んだ新しいフレームワークLOVONを提案する。
視覚的ジッタリングやブラインドゾーン,一時的目標損失といった現実的な課題に対処するため,視覚的安定化のためのラプラシアン分散フィルタなどの専用ソリューションを設計した。
また,自律ナビゲーション,タスク適応,堅牢なタスク完了におけるLOVONの機能を保証するロボットのための機能実行ロジックも開発した。
大規模な評価では、リアルタイム検出、探索、ナビゲーションを含む長時間のタスクがオープンな語彙的動的ターゲットに向けて完了したことを示す。
さらに、異なる脚を持つロボット(Unitree Go2, B2, H1-2)に対する実世界実験では、LOVONの互換性と魅力的なプラグアンドプレイ機能を示している。
関連論文リスト
- DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Learning Hierarchical Interactive Multi-Object Search for Mobile
Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。
これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。
本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文 参考訳(メタデータ) (2023-07-12T12:25:33Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - Embodied BERT: A Transformer Model for Embodied, Language-guided Visual
Task Completion [69.04196388421649]
Embodied BERT (EmBERT) は,言語条件のタスク完了のために,長時間の時間的水平線を横断する高次元マルチモーダル入力に対応可能なトランスフォーマーモデルである。
我々はALFREDベンチマークで競合性能を達成し、EmBERTはALFREDの長い水平高密度マルチモーダルヒストリーをうまく扱える最初のトランスフォーマーベースモデルである。
論文 参考訳(メタデータ) (2021-08-10T21:24:05Z) - Simultaneous Navigation and Construction Benchmarking Environments [73.0706832393065]
モバイル構築のためのインテリジェントなロボット、環境をナビゲートし、幾何学的設計に従ってその構造を変更するプロセスが必要です。
このタスクでは、ロボットのビジョンと学習の大きな課題は、GPSなしでデザインを正確に達成する方法です。
我々は,手工芸政策の性能を,基礎的なローカライゼーションと計画,最先端の深層強化学習手法を用いて評価した。
論文 参考訳(メタデータ) (2021-03-31T00:05:54Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。