Fugu-MT 論文翻訳(概要): Large Language Models for Human-Robot Interaction: Opportunities and Risks

論文の概要: Large Language Models for Human-Robot Interaction: Opportunities and Risks

arxiv url: http://arxiv.org/abs/2405.00693v1
Date: Tue, 26 Mar 2024 15:36:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 11:19:45.898920
Title: Large Language Models for Human-Robot Interaction: Opportunities and Risks
Title（参考訳）: 人間-ロボットインタラクションのための大規模言語モデル:機会とリスク
Authors: Jesse Atuhurra,
Abstract要約: 本稿では,社会ロボットに展開する大規模言語モデルの可能性についてメタスタディを示す。我々は,これらの言語モデルが社会的規範や問題を理解するためにいかに安全に訓練されるかを研究する。この研究は、言語モデルをロボットに組み込むことに興味を持つ他のロボット研究者に、豊富なガイドを提供することを期待している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The tremendous development in large language models (LLM) has led to a new wave of innovations and applications and yielded research results that were initially forecast to take longer. In this work, we tap into these recent developments and present a meta-study about the potential of large language models if deployed in social robots. We place particular emphasis on the applications of social robots: education, healthcare, and entertainment. Before being deployed in social robots, we also study how these language models could be safely trained to ``understand'' societal norms and issues, such as trust, bias, ethics, cognition, and teamwork. We hope this study provides a resourceful guide to other robotics researchers interested in incorporating language models in their robots.
Abstract（参考訳）: 大規模言語モデル(LLM)の著しい発展は、新しいイノベーションと応用の波をもたらし、当初より長くかかると予測されていた研究結果をもたらした。本研究は,最近の研究成果を活かし,社会ロボットに展開する大規模言語モデルの可能性についてメタスタディを提示する。我々は、教育、医療、エンターテイメントといった社会ロボットの応用に特に重点を置いている。社会ロボットに導入する前に、これらの言語モデルが、信頼、偏見、倫理、認知、チームワークといった社会的規範や問題に対して、いかに安全に"理解"できるかを研究します。この研究は、言語モデルをロボットに組み込むことに興味を持つ他のロボット研究者に、豊富なガイドを提供することを期待している。

関連論文リスト

Plan-and-Act using Large Language Models for Interactive Agreement [8.07285448283823]
最近の大規模言語モデル(LLM)はロボットの動作を計画することができる。状況的HRIにおけるLLMの適用の鍵となる問題は、「現在の人間の活動の反映」と「ロボットのタスクの優先順位付け」のバランスである。
論文参考訳（メタデータ） (2025-04-01T23:41:05Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? [33.573056018368504]
本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
論文参考訳（メタデータ） (2024-06-28T07:09:06Z)
Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration [4.2460673279562755]
大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しいアプローチを提案する。このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
論文参考訳（メタデータ） (2024-06-20T08:23:49Z)
Large Language Models for Robotics: Opportunities, Challenges, and Perspectives [46.57277568357048]
大規模言語モデル(LLM)は大幅に拡張され、様々な領域にまたがって統合されている。ロボットが複雑な環境と対話する具体的タスクでは、テキストのみのLLMは、ロボットの視覚知覚との互換性が欠如しているため、しばしば課題に直面している。本稿では,マルチモーダル GPT-4V を利用して,自然言語命令とロボットの視覚認識を組み合わせることで,具体的タスク計画を強化するフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-09T03:22:16Z)
Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文参考訳（メタデータ） (2023-12-14T10:02:55Z)
Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming [4.779196219827508]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。 12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文参考訳（メタデータ） (2023-12-12T12:26:48Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Large Language Models for Robotics: A Survey [40.76581696885846]
大規模言語モデル(LLM)は自然言語の処理と生成能力を有しており、ロボットとの効率的な対話と協調を促進する。本レビューは,ロボット制御,知覚,意思決定,経路計画といった重要な領域に対する,ロボット工学におけるLLMの応用と貢献を要約することを目的としている。
論文参考訳（メタデータ） (2023-11-13T10:46:35Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-19T00:08:48Z)
Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文参考訳（メタデータ） (2023-03-02T01:55:10Z)
World Models and Predictive Coding for Cognitive and Developmental Robotics: Frontiers and Challenges [51.92834011423463]
我々は世界モデルと予測符号化の2つの概念に焦点を当てる。神経科学において、予測符号化は、脳がその入力を継続的に予測し、その環境における自身のダイナミクスと制御行動のモデル化に適応するように提案する。
論文参考訳（メタデータ） (2023-01-14T06:38:14Z)
Understanding Natural Language in Context [13.112390442564442]
我々は、世界の知識に基づくモデルを持ち、このモデルによる推論と計画によって操作する認知ロボットに焦点を当てる。本研究の目的は,自然言語の発話をロボットのフォーマリズムに翻訳することである。我々は、既製のSOTA言語モデル、計画ツール、ロボットの知識ベースを組み合わせてコミュニケーションを改善する。
論文参考訳（メタデータ） (2022-05-25T11:52:16Z)
Semantics for Robotic Mapping, Perception and Interaction: A Survey [93.93587844202534]
理解の研究は、ロボットに世界が何を意味するのかを決定する。人間とロボットが同じ世界で活動するようになるにつれ、人間とロボットの相互作用の展望も意味論をもたらす。ニーズや、トレーニングデータや計算リソースの可用性向上などによって駆動されるセマンティックスは、ロボティクスにおける急速に成長している研究領域である。
論文参考訳（メタデータ） (2021-01-02T12:34:39Z)
Spoken Language Interaction with Robots: Research Issues and Recommendations, Report from the NSF Future Directions Workshop [0.819605661841562]
人間のニーズを満たすには、音声技術とユーザーエクスペリエンス設計における新しい課題に対処する必要がある。大規模な再設計や大規模なトレーニングデータの収集なしに、より強力な適応手法が必要である。ロボットはリアルタイムで動作するため、音声処理や言語処理も必要である。
論文参考訳（メタデータ） (2020-11-11T03:45:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。