論文の概要: Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot
- arxiv url: http://arxiv.org/abs/2411.15027v1
- Date: Fri, 22 Nov 2024 15:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:02:45.807140
- Title: Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot
- Title(参考訳): LLM駆動ロボットにおける動的環境知覚のためのシーングラフフィルタリング
- Authors: Simone Colombani, Luca Brini, Dimitri Ognibene, Giuseppe Boccignone,
- Abstract要約: 本稿では,人間とロボットのインタラクションにおける重要な課題に対処するロボット制御アーキテクチャを提案する。
アーキテクチャはLarge Language Modelsを使用して、自然言語コマンドを含む多様な情報ソースを統合する。
このアーキテクチャは、動的環境における適応性、タスク効率、人間とロボットのコラボレーションを強化する。
- 参考スコア(独自算出の注目度): 0.8515309662618664
- License:
- Abstract: Robots are increasingly being used in dynamic environments like workplaces, hospitals, and homes. As a result, interactions with robots must be simple and intuitive, with robots perception adapting efficiently to human-induced changes. This paper presents a robot control architecture that addresses key challenges in human-robot interaction, with a particular focus on the dynamic creation and continuous update of the robot state representation. The architecture uses Large Language Models to integrate diverse information sources, including natural language commands, robotic skills representation, real-time dynamic semantic mapping of the perceived scene. This enables flexible and adaptive robotic behavior in complex, dynamic environments. Traditional robotic systems often rely on static, pre-programmed instructions and settings, limiting their adaptability to dynamic environments and real-time collaboration. In contrast, this architecture uses LLMs to interpret complex, high-level instructions and generate actionable plans that enhance human-robot collaboration. At its core, the system Perception Module generates and continuously updates a semantic scene graph using RGB-D sensor data, providing a detailed and structured representation of the environment. A particle filter is employed to ensure accurate object localization in dynamic, real-world settings. The Planner Module leverages this up-to-date semantic map to break down high-level tasks into sub-tasks and link them to robotic skills such as navigation, object manipulation (e.g., PICK and PLACE), and movement (e.g., GOTO). By combining real-time perception, state tracking, and LLM-driven communication and task planning, the architecture enhances adaptability, task efficiency, and human-robot collaboration in dynamic environments.
- Abstract(参考訳): ロボットは、職場や病院、家など、ダイナミックな環境でますます使われている。
結果として、ロボットとの対話は単純で直感的なものでなければならない。
本稿では,ロボット状態表現の動的生成と継続的な更新に着目し,人間とロボットの相互作用における重要な課題に対処するロボット制御アーキテクチャを提案する。
アーキテクチャはLarge Language Modelsを使用して、自然言語コマンド、ロボットスキル表現、知覚されたシーンのリアルタイムな動的セマンティックマッピングなど、多様な情報ソースを統合する。
これにより、複雑な動的環境における柔軟で適応的なロボットの動作が可能になる。
従来のロボットシステムは静的でプログラムされた命令や設定に依存しており、動的環境への適応性やリアルタイムのコラボレーションに制限されている。
対照的に、このアーキテクチャはLLMを使って複雑な高レベルの命令を解釈し、人間とロボットのコラボレーションを強化する実行可能な計画を生成する。
その中核となるのは、システムPerception Moduleで、RGB-Dセンサーデータを使用してセマンティックシーングラフを生成し、継続的に更新し、環境の詳細な構造表現を提供する。
動的、実世界の設定において正確なオブジェクトローカライゼーションを保証するために、パーティクルフィルタが使用される。
Planner Moduleはこの最新のセマンティックマップを利用して、ハイレベルなタスクをサブタスクに分解し、ナビゲーションやオブジェクト操作(PICKやPLACEなど)、移動(GOTOなど)といったロボットスキルにリンクする。
リアルタイム認識、状態追跡、LLM駆動のコミュニケーションとタスク計画を組み合わせることで、動的環境における適応性、タスク効率、人間とロボットの協調性が向上する。
関連論文リスト
- One to rule them all: natural language to bind communication, perception and action [0.9302364070735682]
本稿では,Large Language Models (LLMs) によるコミュニケーション,知覚,計画を統合したロボット行動計画のための高度なアーキテクチャを提案する。
Planner Moduleはシステムの中核であり、修正されたReActフレームワークに組み込み、ユーザーコマンドの解釈と実行にLLMが使用される。
修正されたReActフレームワークは、リアルタイムな環境認識と身体行動の結果を提供することにより、実行スペースをさらに強化する。
論文 参考訳(メタデータ) (2024-11-22T16:05:54Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Flow as the Cross-Domain Manipulation Interface [73.15952395641136]
Im2Flow2Actは、現実世界のロボットのトレーニングデータを必要とせずに、ロボットが現実世界の操作スキルを習得することを可能にする。
Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。
我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。
論文 参考訳(メタデータ) (2024-07-21T16:15:02Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - InCoRo: In-Context Learning for Robotics Control with Feedback Loops [4.702566749969133]
InCoRoは、LLMコントローラ、シーン理解ユニット、ロボットからなる古典的なロボットフィードバックループを使用するシステムである。
システムの一般化能力を強調し,InCoRoが成功率において先行技術を上回ることを示す。
この研究は、動的環境に適応する信頼性があり、効率的でインテリジェントな自律システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2024-02-07T19:01:11Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Prompt a Robot to Walk with Large Language Models [18.214609570837403]
巨大な言語モデル(LLM)は、大規模なインターネットスケールのデータで事前訓練されている。
物理的環境から収集した数発のプロンプトを使用する新しいパラダイムを導入する。
様々なロボットと環境をまたいだ実験により、我々の手法がロボットに歩行を効果的に促すことが検証された。
論文 参考訳(メタデータ) (2023-09-18T17:50:17Z) - SEAL: Semantic Frame Execution And Localization for Perceiving Afforded
Robot Actions [5.522839151632667]
本稿では,ロボット操作行動のセマンティックフレーム表現を拡張し,セマンティックフレーム実行と局所化の問題をグラフィカルモデルとして導入する。
SEAL問題に対して、ロボットに与えられた行動の場所として、有限のセマンティックフレームに対する信念を維持するための非パラメトリックセマンティックフレームマッピング(SeFM)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-03-24T15:25:41Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z) - HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and
Sensing [1.3678064890824186]
HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは、ロボットチームにおけるアクティブなセマンティックセンシングと計画のためのフレームワークである。
このアプローチにより、人間が不規則にモデル構造を強制し、不確実な環境で意味的なソフトデータの範囲を拡張することができる。
大規模部分構造環境におけるUAV対応ターゲット探索アプリケーションのシミュレーションは、時間と信念状態の推定において著しく改善されている。
論文 参考訳(メタデータ) (2021-10-20T00:41:57Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。