論文の概要: LLM as A Robotic Brain: Unifying Egocentric Memory and Control
- arxiv url: http://arxiv.org/abs/2304.09349v1
- Date: Wed, 19 Apr 2023 00:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 15:56:44.414579
- Title: LLM as A Robotic Brain: Unifying Egocentric Memory and Control
- Title(参考訳): ロボット脳としてのLLM : エゴセントリック記憶と制御の統合
- Authors: Jinjie Mai, Jun Chen, Bing Li, Guocheng Qian, Mohamed Elhoseiny,
Bernard Ghanem
- Abstract要約: Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。
メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。
ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 77.0899374628474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied AI focuses on the study and development of intelligent systems that
possess a physical or virtual embodiment (i.e. robots) and are able to
dynamically interact with their environment. Memory and control are the two
essential parts of an embodied system and usually require separate frameworks
to model each of them. In this paper, we propose a novel and generalizable
framework called LLM-Brain: using Large-scale Language Model as a robotic brain
to unify egocentric memory and control. The LLM-Brain framework integrates
multiple multimodal language models for robotic tasks, utilizing a zero-shot
learning approach. All components within LLM-Brain communicate using natural
language in closed-loop multi-round dialogues that encompass perception,
planning, control, and memory. The core of the system is an embodied LLM to
maintain egocentric memory and control the robot. We demonstrate LLM-Brain by
examining two downstream tasks: active exploration and embodied question
answering. The active exploration tasks require the robot to extensively
explore an unknown environment within a limited number of actions. Meanwhile,
the embodied question answering tasks necessitate that the robot answers
questions based on observations acquired during prior explorations.
- Abstract(参考訳): embodied aiは、物理的または仮想の体型(つまりロボット)を持ち、環境と動的に相互作用できるインテリジェントなシステムの研究と開発に焦点を当てている。
メモリと制御は、具体化されたシステムの2つの重要な部分であり、通常、それぞれをモデル化するために別々のフレームワークが必要です。
本稿では,ロボット脳として大規模言語モデルを用いて自己中心記憶と制御を統一する,llm-brainと呼ばれる新しい汎用フレームワークを提案する。
LLM-Brainフレームワークは、ゼロショット学習アプローチを利用して、ロボットタスクのための複数のマルチモーダル言語モデルを統合する。
LLM-Brain内の全てのコンポーネントは、認識、計画、制御、記憶を含む閉ループ多ラウンド対話において自然言語を用いて通信する。
システムのコアは、エゴセントリックメモリを維持し、ロボットを制御するための具体化されたllmである。
LLM-Brainは,アクティブ探索と具体的質問応答という,下流の2つの課題を調べることで実証する。
アクティブな探索タスクでは、ロボットは限られた数のアクションで未知の環境を広範囲に探索する必要がある。
一方、具体的質問応答タスクでは、ロボットが事前探索中に得られた観察に基づいて質問に答える必要がある。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? [33.573056018368504]
本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。
我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。
以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
論文 参考訳(メタデータ) (2024-06-28T07:09:06Z) - Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy [31.818923556912495]
我々は,ロボット自律のための自己教師型ニューラルシンボリック(NeSy)計算フレームワーク,インペラティブラーニング(IL)を導入する。
ILを2段階最適化(BLO)として定式化し、3つのモジュール間の相互学習を可能にする。
ILはロボットの自律性を大幅に向上させ、多様な領域にわたるさらなる研究を促進することを期待している。
論文 参考訳(メタデータ) (2024-06-23T12:02:17Z) - Large Language Models for Robotics: Opportunities, Challenges, and
Perspectives [46.57277568357048]
大規模言語モデル(LLM)は大幅に拡張され、様々な領域にまたがって統合されている。
ロボットが複雑な環境と対話する具体的タスクでは、テキストのみのLLMは、ロボットの視覚知覚との互換性が欠如しているため、しばしば課題に直面している。
本稿では,マルチモーダル GPT-4V を利用して,自然言語命令とロボットの視覚認識を組み合わせることで,具体的タスク計画を強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T03:22:16Z) - Large Language Models for Robotics: A Survey [40.76581696885846]
大規模言語モデル(LLM)は自然言語の処理と生成能力を有しており、ロボットとの効率的な対話と協調を促進する。
本レビューは,ロボット制御,知覚,意思決定,経路計画といった重要な領域に対する,ロボット工学におけるLLMの応用と貢献を要約することを目的としている。
論文 参考訳(メタデータ) (2023-11-13T10:46:35Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。