論文の概要: Chat with the Environment: Interactive Multimodal Perception using Large
Language Models
- arxiv url: http://arxiv.org/abs/2303.08268v1
- Date: Tue, 14 Mar 2023 23:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:24:14.688341
- Title: Chat with the Environment: Interactive Multimodal Perception using Large
Language Models
- Title(参考訳): 環境とのチャット:大規模言語モデルを用いた対話型マルチモーダル知覚
- Authors: Xufeng Zhao, Mengdi Li, Cornelius Weber, Muhammad Burhan Hafez, and
Stefan Wermter
- Abstract要約: 大型言語モデル(LLM)は、ゼロショットロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
- 参考スコア(独自算出の注目度): 14.809126679240896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Programming robot behaviour in a complex world faces challenges on multiple
levels, from dextrous low-level skills to high-level planning and reasoning.
Recent pre-trained Large Language Models (LLMs) have shown remarkable reasoning
ability in zero-shot robotic planning. However, it remains challenging to
ground LLMs in multimodal sensory input and continuous action output, while
enabling a robot to interact with its environment and acquire novel information
as its policies unfold. We develop a robot interaction scenario with a
partially observable state, which necessitates a robot to decide on a range of
epistemic actions in order to sample sensory information among multiple
modalities, before being able to execute the task correctly. An interactive
perception framework is therefore proposed with an LLM as its backbone, whose
ability is exploited to instruct epistemic actions and to reason over the
resulting multimodal sensations (vision, sound, haptics, proprioception), as
well as to plan an entire task execution based on the interactively acquired
information. Our study demonstrates that LLMs can provide high-level planning
and reasoning skills and control interactive robot behaviour in a multimodal
environment, while multimodal modules with the context of the environmental
state help ground the LLMs and extend their processing ability.
- Abstract(参考訳): 複雑な世界でのプログラミングロボットの振る舞いは、多彩な低レベルのスキルからハイレベルな計画や推論に至るまで、さまざまなレベルで課題に直面している。
最近のLLM(Large Language Models)は、ゼロショットロボット計画において顕著な推論能力を示している。
しかし、ロボットが環境と対話し、そのポリシーが展開するにつれて、新しい情報を得られるようにしながら、マルチモーダルな感覚入力と連続的な動作出力にLCMを接地することは依然として困難である。
ロボットがタスクを正しく実行する前に、複数のモダリティ間の感覚情報をサンプリングするために、認識行動の範囲をロボットが決定する必要がある、部分的に観察可能な状態のロボットインタラクションシナリオを開発する。
したがって、対話的知覚フレームワークは、そのバックボーンとしてLLMを用いて提案され、その能力は、結果として生じるマルチモーダル感覚(視覚、音、触覚、プロプレセプション)を解釈し、対話的に獲得した情報に基づいてタスクの実行全体を計画する。
本研究は,LLMがマルチモーダル環境における高レベルの計画と推論能力を提供し,対話型ロボットの動作を制御できることを実証する。
関連論文リスト
- MILD: Multimodal Interactive Latent Dynamics for Learning Human-Robot
Interaction [34.978017200500005]
我々は,HRI(Human-Robot Interactions)の問題に対処するために,MILD(Multimodal Interactive Latent Dynamics)を提案する。
変分オートエンコーダ(VAE)の潜時空間における相互作用エージェントの結合分布をモデル化するために,Hidden Semi-Markov Models (HSMMs) を用いて実演から相互作用ダイナミクスを学習する。
MILDは、観察されたエージェント(人間の)軌道に条件付けされたときに、制御されたエージェント(ロボット)に対してより正確な軌道を生成する。
論文 参考訳(メタデータ) (2022-10-22T11:25:11Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Towards open and expandable cognitive AI architectures for large-scale
multi-agent human-robot collaborative learning [5.478764356647437]
多エージェントLfDロボット学習のための新しい認知アーキテクチャを導入し、オープンでスケーラブルで拡張可能なロボットシステムの信頼性の高い展開を可能にする。
この概念化は、ロボットプラットフォームのネットワークの端ノードで動作する複数のAI駆動の認知プロセスを採用することに依存している。
提案フレームワークの適用性は,実世界の産業ケーススタディの例を用いて説明できる。
論文 参考訳(メタデータ) (2020-12-15T09:49:22Z) - iCORPP: Interleaved Commonsense Reasoning and Probabilistic Planning on
Robots [51.520214480166175]
我々はiCORPPと呼ばれる新しいアルゴリズムを提案し、現在の世界状態を同時に推定し、世界ダイナミクスの推論を行い、タスク指向のコントローラを構築する。
結果は、競合するベースラインと比較して、スケーラビリティ、効率、適応性が大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2020-04-18T17:46:59Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。