Fugu-MT 論文翻訳(概要): VoicePilot: Harnessing LLMs as Speech Interfaces for Physically Assistive Robots

論文の概要: VoicePilot: Harnessing LLMs as Speech Interfaces for Physically Assistive Robots

arxiv url: http://arxiv.org/abs/2404.04066v1
Date: Fri, 5 Apr 2024 12:45:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 16:05:12.626437
Title: VoicePilot: Harnessing LLMs as Speech Interfaces for Physically Assistive Robots
Title（参考訳）: VoicePilot:物理支援ロボットのための音声インタフェースとしてのLLMのハーネス化
Authors: Akhil Padmanabha, Jessie Yuan, Janavi Gupta, Zulekha Karachiwalla, Carmel Majidi, Henny Admoni, Zackory Erickson,
Abstract要約: LLM(Large Language Models)を利用した音声インタフェースにより、個人はロボットに高度なコマンドや微妙な好みを伝えることができる。高度なタスク計画とコード生成のためのロボットへのインタフェースとしてLLMを統合するためのフレームワークが提案されているが、人間中心の考慮を組み込むことはできなかった。本稿では,身体支援ロボットの音声インタフェースとしてLLMを組み込むための枠組みについて,食事ロボットを用いた3段階の試験を反復的に構築し,11人の高齢者を対象に,独立した生活施設で評価を行った。
参考スコア（独自算出の注目度）: 9.528060348251584
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Physically assistive robots present an opportunity to significantly increase the well-being and independence of individuals with motor impairments or other forms of disability who are unable to complete activities of daily living. Speech interfaces, especially ones that utilize Large Language Models (LLMs), can enable individuals to effectively and naturally communicate high-level commands and nuanced preferences to robots. Frameworks for integrating LLMs as interfaces to robots for high level task planning and code generation have been proposed, but fail to incorporate human-centric considerations which are essential while developing assistive interfaces. In this work, we present a framework for incorporating LLMs as speech interfaces for physically assistive robots, constructed iteratively with 3 stages of testing involving a feeding robot, culminating in an evaluation with 11 older adults at an independent living facility. We use both quantitative and qualitative data from the final study to validate our framework and additionally provide design guidelines for using LLMs as speech interfaces for assistive robots. Videos and supporting files are located on our project website: https://sites.google.com/andrew.cmu.edu/voicepilot/
Abstract（参考訳）: 身体支援ロボットは、日常生活の活動を完了できない運動障害や他の障害のある個人の健康と自立を著しく向上させる機会を提供する。音声インタフェース、特にLarge Language Models (LLMs) を利用するものは、個人がロボットに対して高レベルなコマンドや微妙な好みを効果的に、そして自然に伝達することができる。高度なタスク計画とコード生成のためのロボットへのインタフェースとしてLLMを統合するためのフレームワークが提案されているが、補助インタフェースを開発する際に不可欠な人間中心の考察を取り入れていない。本研究では,身体支援ロボットの音声インタフェースとしてLLMを組み込むための枠組みを提案し,給餌ロボットを用いた3段階の試験を反復的に構築し,11人の高齢者を対象に独立した生活施設で評価を行った。最終研究から得られた定量データと定性的データの両方を用いて、我々のフレームワークを検証するとともに、補助ロボットのための音声インタフェースとしてLLMを使用するための設計ガイドラインを提供する。 https://sites.google.com/andrew.cmu.edu/voicepilot/

関連論文リスト

Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文参考訳（メタデータ） (2025-05-14T15:28:43Z)
A Paragraph is All It Takes: Rich Robot Behaviors from Interacting, Trusted LLMs [2.4866349670733294]
大規模言語モデル(LLM)は、我々の物理的環境と動物および人間の行動に関するすべての公開知識のコンパクトな表現である。我々は、ロボットのデータ融合サイクルがわずか1Hzで実行されているにもかかわらず、リッチなロボットの挙動と優れた性能が達成できることを示した。自然言語をLLM間通信に使用することで、ロボットの推論と意思決定を人間が直接観察することが可能になる。我々は、対話型AI間のデータバスとして自然言語を使用することと、振る舞い制約を保存するために不変な公開台帳を使用することで、予期しないほどリッチなパフォーマンス、アップグレード性、そして組み合わせ可能なロボットを構築することができることを示唆している。
論文参考訳（メタデータ） (2024-12-24T18:41:15Z)
TalkWithMachines: Enhancing Human-Robot Interaction for Interpretable Industrial Robotics Through Large/Vision Language Models [1.534667887016089]
本稿では,Large Language Models (LLMs) とVision Language Models (VLMs) の最近の進歩について検討する。この統合により、ロボットは自然言語で与えられたコマンドを理解し、実行し、視覚的および/または記述的な入力を通じて環境を認識することができる。本稿は、低レベル制御を探索するLLM支援型ロボット制御4つについて概説し、(ii)ロボットの内部状態を記述した言語に基づくフィードバックの生成、(iii)視覚情報の追加入力としての利用、(iv)タスク計画とフィードバックを生成するロボット構造情報の利用について述べる。
論文参考訳（メタデータ） (2024-12-19T23:43:40Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Towards an LLM-Based Speech Interface for Robot-Assisted Feeding [9.528060348251584]
LLM(Large Language Models)を利用した音声インタフェースにより、個人はロボットに高度なコマンドや微妙な好みを伝えることができる。本研究では,商用支援ロボットのためのLLMベースの音声インタフェースを実演する。
論文参考訳（メタデータ） (2024-10-27T22:56:51Z)
Interpreting and learning voice commands with a Large Language Model for a robot system [0.0]
GPT-4のようなLarge Language Models (LLM)を使用することで、ロボットの能力が向上し、リアルタイムの対話や意思決定が可能になった。本研究の目的は,LLMとデータベースを融合して意思決定を改善し,要求解釈問題に対する知識獲得を可能にすることである。
論文参考訳（メタデータ） (2024-07-31T10:30:31Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Ain't Misbehavin' -- Using LLMs to Generate Expressive Robot Behavior in Conversations with the Tabletop Robot Haru [9.2526849536751]
本稿では,大規模言語モデル(LLM)を利用して,表現行動を伴うロボット応答を生成する,完全自動会話システムを提案する。提案したシステムを用いて,ボランティアが社会ロボットとチャットし,そのフィードバックを分析し,チャットテキストの厳密な誤り解析を行う。最も否定的なフィードバックは、会話に限られた影響を及ぼす自動音声認識(ASR)エラーによるものだった。
論文参考訳（メタデータ） (2024-02-18T12:35:52Z)
AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文参考訳（メタデータ） (2024-01-23T18:45:54Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Large Language Models for Robotics: A Survey [40.76581696885846]
大規模言語モデル(LLM)は自然言語の処理と生成能力を有しており、ロボットとの効率的な対話と協調を促進する。本レビューは,ロボット制御,知覚,意思決定,経路計画といった重要な領域に対する,ロボット工学におけるLLMの応用と貢献を要約することを目的としている。
論文参考訳（メタデータ） (2023-11-13T10:46:35Z)
Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文参考訳（メタデータ） (2023-11-02T16:34:33Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (2023-06-14T17:27:10Z)
Self-supervised reinforcement learning for speaker localisation with the iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-12T18:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。