論文の概要: A Paragraph is All It Takes: Rich Robot Behaviors from Interacting, Trusted LLMs
- arxiv url: http://arxiv.org/abs/2412.18588v1
- Date: Tue, 24 Dec 2024 18:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:59.032215
- Title: A Paragraph is All It Takes: Rich Robot Behaviors from Interacting, Trusted LLMs
- Title(参考訳): 対話型で信頼できるLLMのリッチなロボットの行動」のパラグラフ(動画あり)
- Authors: OpenMind, Shaohong Zhong, Adam Zhou, Boyuan Chen, Homin Luo, Jan Liphardt,
- Abstract要約: 大規模言語モデル(LLM)は、我々の物理的環境と動物および人間の行動に関するすべての公開知識のコンパクトな表現である。
我々は、ロボットのデータ融合サイクルがわずか1Hzで実行されているにもかかわらず、リッチなロボットの挙動と優れた性能が達成できることを示した。
自然言語をLLM間通信に使用することで、ロボットの推論と意思決定を人間が直接観察することが可能になる。
我々は、対話型AI間のデータバスとして自然言語を使用することと、振る舞い制約を保存するために不変な公開台帳を使用することで、予期しないほどリッチなパフォーマンス、アップグレード性、そして組み合わせ可能なロボットを構築することができることを示唆している。
- 参考スコア(独自算出の注目度): 2.4866349670733294
- License:
- Abstract: Large Language Models (LLMs) are compact representations of all public knowledge of our physical environment and animal and human behaviors. The application of LLMs to robotics may offer a path to highly capable robots that perform well across most human tasks with limited or even zero tuning. Aside from increasingly sophisticated reasoning and task planning, networks of (suitably designed) LLMs offer ease of upgrading capabilities and allow humans to directly observe the robot's thinking. Here we explore the advantages, limitations, and particularities of using LLMs to control physical robots. The basic system consists of four LLMs communicating via a human language data bus implemented via web sockets and ROS2 message passing. Surprisingly, rich robot behaviors and good performance across different tasks could be achieved despite the robot's data fusion cycle running at only 1Hz and the central data bus running at the extremely limited rates of the human brain, of around 40 bits/s. The use of natural language for inter-LLM communication allowed the robot's reasoning and decision making to be directly observed by humans and made it trivial to bias the system's behavior with sets of rules written in plain English. These rules were immutably written into Ethereum, a global, public, and censorship resistant Turing-complete computer. We suggest that by using natural language as the data bus among interacting AIs, and immutable public ledgers to store behavior constraints, it is possible to build robots that combine unexpectedly rich performance, upgradability, and durable alignment with humans.
- Abstract(参考訳): 大規模言語モデル(LLM)は、我々の物理的環境と動物および人間の行動に関するすべての公開知識のコンパクトな表現である。
LLMのロボット工学への応用は、限られた、あるいはゼロのチューニングでほとんどの人間のタスクをうまくこなす、高度な能力を持つロボットへの道を提供するかもしれない。
より洗練された推論とタスク計画の他に、(適切に設計された)LLMのネットワークは、アップグレードの容易さを提供し、人間がロボットの思考を直接観察できるようにする。
本稿では,LLMを用いた物理的ロボット制御の利点,限界,特異性について考察する。
基本システムは、ウェブソケットとROS2メッセージパッシングを介して実装された人間の言語データバスを介して通信する4つのLLMで構成されている。
驚くべきことに、ロボットのデータ融合サイクルはわずか1Hzで、中央のデータバスは人間の脳の極めて限られた速度で、約40ビット/秒で実行されている。
自然言語をLLM間通信に使用することで、ロボットの推論と決定は人間によって直接観察され、平易な英語で書かれた規則でシステムの振舞いを偏見なくした。
これらのルールは、グローバル、パブリック、検閲に耐性のあるチューリング完全コンピュータであるEthereumに不変に書き込まれていた。
我々は,対話型AI間のデータバスとして自然言語を用い,行動制約を保存するために不変な公開台帳を使用することで,予期せぬほど豊かなパフォーマンス,アップグレード性,人間との永続的なアライメントを組み合わせられるロボットを構築することができることを示唆した。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Towards an LLM-Based Speech Interface for Robot-Assisted Feeding [9.528060348251584]
LLM(Large Language Models)を利用した音声インタフェースにより、個人はロボットに高度なコマンドや微妙な好みを伝えることができる。
本研究では,商用支援ロボットのためのLLMベースの音声インタフェースを実演する。
論文 参考訳(メタデータ) (2024-10-27T22:56:51Z) - Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration [4.2460673279562755]
大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。
本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しいアプローチを提案する。
このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
論文 参考訳(メタデータ) (2024-06-20T08:23:49Z) - VoicePilot: Harnessing LLMs as Speech Interfaces for Physically Assistive Robots [9.528060348251584]
LLM(Large Language Models)を利用した音声インタフェースにより、個人はロボットに高度なコマンドや微妙な好みを伝えることができる。
高度なタスク計画とコード生成のためのロボットへのインタフェースとしてLLMを統合するためのフレームワークが提案されているが、人間中心の考慮を組み込むことはできなかった。
本稿では,身体支援ロボットの音声インタフェースとしてLLMを組み込むための枠組みについて,食事ロボットを用いた3段階の試験を反復的に構築し,11人の高齢者を対象に,独立した生活施設で評価を行った。
論文 参考訳(メタデータ) (2024-04-05T12:45:10Z) - Large Language Models for Robotics: A Survey [40.76581696885846]
大規模言語モデル(LLM)は自然言語の処理と生成能力を有しており、ロボットとの効率的な対話と協調を促進する。
本レビューは,ロボット制御,知覚,意思決定,経路計画といった重要な領域に対する,ロボット工学におけるLLMの応用と貢献を要約することを目的としている。
論文 参考訳(メタデータ) (2023-11-13T10:46:35Z) - Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models [23.945922720555146]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。
本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文 参考訳(メタデータ) (2023-09-08T13:29:05Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Robots with Different Embodiments Can Express and Influence Carefulness
in Object Manipulation [104.5440430194206]
本研究では,2つのロボットによるコミュニケーション意図による物体操作の知覚について検討する。
ロボットの動きを設計し,物体の搬送時に注意を喚起するか否かを判断した。
論文 参考訳(メタデータ) (2022-08-03T13:26:52Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。