論文の概要: Using Natural Language for Human-Robot Collaboration in the Real World
- arxiv url: http://arxiv.org/abs/2508.11759v1
- Date: Fri, 15 Aug 2025 18:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.36119
- Title: Using Natural Language for Human-Robot Collaboration in the Real World
- Title(参考訳): 実世界における人間-ロボット協調のための自然言語の利用
- Authors: Peter Lindes, Kaoutar Skiker,
- Abstract要約: 私たちは、自律ロボットが、物理的な世界で複雑なタスクを遂行する際のアシスタントとして、人間と協力できる日というビジョンを持っています。
このビジョンでは、ロボットは人間にとって自然な言語を使って、人間の協力者とコミュニケーションをとることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have a vision of a day when autonomous robots can collaborate with humans as assistants in performing complex tasks in the physical world. This vision includes that the robots will have the ability to communicate with their human collaborators using language that is natural to the humans. Traditional Interactive Task Learning (ITL) systems have some of this ability, but the language they can understand is very limited. The advent of large language models (LLMs) provides an opportunity to greatly improve the language understanding of robots, yet integrating the language abilities of LLMs with robots that operate in the real physical world is a challenging problem. In this chapter we first review briefly a few commercial robot products that work closely with humans, and discuss how they could be much better collaborators with robust language abilities. We then explore how an AI system with a cognitive agent that controls a physical robot at its core, interacts with both a human and an LLM, and accumulates situational knowledge through its experiences, can be a possible approach to reach that vision. We focus on three specific challenges of having the robot understand natural language, and present a simple proof-of-concept experiment using ChatGPT for each. Finally, we discuss what it will take to turn these simple experiments into an operational system where LLM-assisted language understanding is a part of an integrated robotic assistant that uses language to collaborate with humans.
- Abstract(参考訳): 私たちは、自律ロボットが、物理的な世界で複雑なタスクを遂行する際のアシスタントとして、人間と協力できる日というビジョンを持っています。
このビジョンでは、ロボットは人間にとって自然な言語を使って、人間の協力者とコミュニケーションをとることができる。
従来の対話型タスク学習(ITL)システムには、このような能力があるが、理解できる言語は非常に限られている。
大規模言語モデル(LLM)の出現は、ロボットの言語理解を大幅に改善する機会を提供するが、LLMの言語能力と実際の物理世界で動くロボットを統合することは難しい問題である。
この章では、まず、人間と密接に連携するいくつかの商用ロボット製品について簡単にレビューし、より堅牢な言語能力を持つより優れた協力者になる方法について論じます。
そして、その中核に物理ロボットを制御し、人間とLLMの両方と相互作用し、その経験を通じて状況知識を蓄積する認知エージェントを備えたAIシステムが、そのビジョンに到達するための可能なアプローチである可能性を探る。
本稿では,ロボットに自然言語を理解させるための3つの課題に着目し,ChatGPTを用いて概念実証実験を行う。
最後に、これらの単純な実験を、LLMによる言語理解が、言語を使って人間と協調する統合ロボットアシスタントの一部となるような運用システムに変えるにはどうすればよいかについて論じる。
関連論文リスト
- Challenges in Grounding Language in the Real World [0.0]
人工知能の長期的な目標は、人間が人間にとって自然な言語を使って物理的なロボットと協力できる言語理解システムを構築することである。
本研究では,対話型タスク学習が可能な認知エージェントの能力と,大規模言語モデルの言語能力を統合するソリューションを提案する。
論文 参考訳(メタデータ) (2025-06-20T17:17:53Z) - A Paragraph is All It Takes: Rich Robot Behaviors from Interacting, Trusted LLMs [2.4866349670733294]
大規模言語モデル(LLM)は、我々の物理的環境と動物および人間の行動に関するすべての公開知識のコンパクトな表現である。
我々は、ロボットのデータ融合サイクルがわずか1Hzで実行されているにもかかわらず、リッチなロボットの挙動と優れた性能が達成できることを示した。
自然言語をLLM間通信に使用することで、ロボットの推論と意思決定を人間が直接観察することが可能になる。
我々は、対話型AI間のデータバスとして自然言語を使用することと、振る舞い制約を保存するために不変な公開台帳を使用することで、予期しないほどリッチなパフォーマンス、アップグレード性、そして組み合わせ可能なロボットを構築することができることを示唆している。
論文 参考訳(メタデータ) (2024-12-24T18:41:15Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming [4.779196219827508]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。
このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。
12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文 参考訳(メタデータ) (2023-12-12T12:26:48Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Joint Mind Modeling for Explanation Generation in Complex Human-Robot
Collaborative Tasks [83.37025218216888]
本稿では,人間とロボットのコラボレーションにおいて,人間のようなコミュニケーションを実現するための新しい説明可能なAI(XAI)フレームワークを提案する。
ロボットは、人間のユーザの階層的なマインドモデルを構築し、コミュニケーションの一形態として自身のマインドの説明を生成する。
その結果,提案手法はロボットの協調動作性能とユーザ認識を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-07-24T23:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。