論文の概要: Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2411.16723v1
- Date: Sat, 23 Nov 2024 02:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:31:00.515126
- Title: Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction
- Title(参考訳): 2つの頭は1つより優れている:人間とロボットのインタラクションのためのラボレーティブなLLMエボダイドエージェント
- Authors: Mitchell Rosser, Marc. G Carmichael,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語コマンドを解釈するために、その膨大な理解を活用できなければならない。
しかし、これらのモデルは幻覚に悩まされ、安全上の問題やタスクからの逸脱を引き起こす可能性がある。
本研究では、一つの独立したAIエージェントに対して複数のコラボレーティブAIシステムがテストされ、他のドメインの成功が人間とロボットのインタラクション性能の改善につながるかどうかを判定した。
- 参考スコア(独自算出の注目度): 1.6574413179773757
- License:
- Abstract: With the recent development of natural language generation models - termed as large language models (LLMs) - a potential use case has opened up to improve the way that humans interact with robot assistants. These LLMs should be able to leverage their large breadth of understanding to interpret natural language commands into effective, task appropriate and safe robot task executions. However, in reality, these models suffer from hallucinations, which may cause safety issues or deviations from the task. In other domains, these issues have been improved through the use of collaborative AI systems where multiple LLM agents can work together to collectively plan, code and self-check outputs. In this research, multiple collaborative AI systems were tested against a single independent AI agent to determine whether the success in other domains would translate into improved human-robot interaction performance. The results show that there is no defined trend between the number of agents and the success of the model. However, it is clear that some collaborative AI agent architectures can exhibit a greatly improved capacity to produce error-free code and to solve abstract problems.
- Abstract(参考訳): 大規模言語モデル(LLMs)と呼ばれる最近の自然言語生成モデルの開発により、ロボットアシスタントとのインタラクションを改善するために、潜在的なユースケースがオープンになった。
これらのLLMは、その膨大な理解を活用して、自然言語コマンドを効果的でタスクが適切で安全なロボットタスク実行に解釈するべきである。
しかし、実際には、これらのモデルは幻覚に悩まされ、安全上の問題やタスクからの逸脱を引き起こす可能性がある。
他のドメインでは、複数のLLMエージェントが協調して計画、コード、自己チェックアウトプットを計画できるコラボレーティブAIシステムを使用することで、これらの問題が改善されている。
本研究では、一つの独立したAIエージェントに対して複数のコラボレーティブAIシステムがテストされ、他のドメインの成功が人間とロボットのインタラクション性能の改善につながるかどうかを判定した。
その結果,エージェント数とモデルの成功との間には明確な傾向が存在しないことがわかった。
しかし、いくつかの協調AIエージェントアーキテクチャでは、エラーのないコードを生成し、抽象的な問題を解決する能力が大幅に向上していることは明らかである。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Exploring Autonomous Agents through the Lens of Large Language Models: A Review [0.0]
大規模言語モデル(LLM)は人工知能を変革し、自律エージェントがさまざまなドメインで多様なタスクを実行できるようにしている。
彼らは多目的性、人的価値のアライメント、幻覚、評価といった課題に直面している。
AgentBench、WebArena、ToolLLMといった評価プラットフォームは、複雑なシナリオでこれらのエージェントを評価する堅牢な方法を提供します。
論文 参考訳(メタデータ) (2024-04-05T22:59:02Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging
Face [85.25054021362232]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を示した。
LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。
本稿では,機械学習コミュニティのさまざまなAIモデルを接続するLLMエージェントであるHuggingGPTを紹介する。
論文 参考訳(メタデータ) (2023-03-30T17:48:28Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Creating Multimodal Interactive Agents with Imitation and
Self-Supervised Learning [20.02604302565522]
SFからの一般的なビジョンは、ロボットはいつか私たちの物理的空間に住み、世界は私たちのように感じ、肉体労働を補助し、自然言語を通して私たちとコミュニケーションする、ということだ。
本稿では,仮想環境の単純化により人間と自然に対話できる人工エージェントを設計する方法について検討する。
シミュレーションされた世界における人間と人間の相互作用の模倣学習は、自己指導型学習と合わせて、多モーダルな対話型エージェントを作るのに十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T15:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。