Fugu-MT 論文翻訳(概要): LIT: Large Language Model Driven Intention Tracking for Proactive Human-Robot Collaboration -- A Robot Sous-Chef Application

論文の概要: LIT: Large Language Model Driven Intention Tracking for Proactive Human-Robot Collaboration -- A Robot Sous-Chef Application

arxiv url: http://arxiv.org/abs/2406.13787v1
Date: Wed, 19 Jun 2024 19:18:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 18:25:38.000733
Title: LIT: Large Language Model Driven Intention Tracking for Proactive Human-Robot Collaboration -- A Robot Sous-Chef Application
Title（参考訳）: LIT: ロボットによる協調作業のための大規模言語モデル駆動意図追跡
Authors: Zhe Huang, John Pohovey, Ananya Yammanuru, Katherine Driggs-Campbell,
Abstract要約: 大型言語モデル (LLM) と視覚言語モデル (VLM) は、ロボットが自然言語のプロンプトを制御アクションに接地できるようにする。言語駆動型意図追跡(LIT)は,人間の長期動作をモデル化し,ロボットを積極的に協調するための次の人間の意図を予測する。
参考スコア（独自算出の注目度）: 4.519544934630495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLM) and Vision Language Models (VLM) enable robots to ground natural language prompts into control actions to achieve tasks in an open world. However, when applied to a long-horizon collaborative task, this formulation results in excessive prompting for initiating or clarifying robot actions at every step of the task. We propose Language-driven Intention Tracking (LIT), leveraging LLMs and VLMs to model the human user's long-term behavior and to predict the next human intention to guide the robot for proactive collaboration. We demonstrate smooth coordination between a LIT-based collaborative robot and the human user in collaborative cooking tasks.
Abstract（参考訳）: 大型言語モデル (LLM) とビジョン言語モデル (VLM) は、ロボットが自然言語のプロンプトを制御行動に置き、オープンな世界でタスクを達成できるようにする。しかし、長時間の協調作業に適用すると、この定式化はタスクのすべてのステップでロボットの動作の開始や明確化を過剰に促す結果となる。我々はLIT(Language-Driven Intention Tracking)を提案し、LLMとVLMを利用して人間の長期動作をモデル化し、ロボットを積極的に協調するための次の人間の意図を予測する。我々は,LITをベースとした協調作業ロボットと,協調調理作業における人間ユーザとの円滑な協調を実演する。

関連論文リスト

Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation [8.446410154654467]
MICoBotは、両方のエージェントが自然言語を使用して、タスクの最も優れたステップを完遂できる提案を定式化、受け入れ、拒否する、という一般的なシナリオを扱う。課題指向の対話を多様に扱うために,MICoBotは,(1)メタプランナーが人間のダイアログに高レベルの協調戦略を定式化してコーディングすることを考慮し,(2)プランナーがロボットの能力に基づいて各エージェントに残りのステップを最適に割り当てる,(3)行動が人間に言うような低レベルの行動を決定する,という3段階の意思決定を行う。
論文参考訳（メタデータ） (2025-08-07T16:09:12Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-09-23T15:53:41Z)
Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。 CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文参考訳（メタデータ） (2024-09-02T15:27:48Z)
Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model [6.9268843428933025]
大規模言語モデル(LLM)は、意味情報の理解と処理のための強力な計画と推論能力を示している。本稿では,ロボットが与えられたテキストによる指示の下で,自律的に動作や低レベル実行を計画できる新しい言語モデルベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-15T17:33:32Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration [4.2460673279562755]
大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しいアプローチを提案する。このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
論文参考訳（メタデータ） (2024-06-20T08:23:49Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文参考訳（メタデータ） (2023-10-04T00:50:21Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)
Show Me What You Can Do: Capability Calibration on Reachable Workspace for Human-Robot Collaboration [83.4081612443128]
本稿では,REMPを用いた短時間キャリブレーションにより,ロボットが到達できると考える非専門家と地道とのギャップを効果的に埋めることができることを示す。この校正手順は,ユーザ認識の向上だけでなく,人間とロボットのコラボレーションの効率化にも寄与することを示す。
論文参考訳（メタデータ） (2021-03-06T09:14:30Z)
Forming Human-Robot Cooperation for Tasks with General Goal using Evolutionary Value Learning [9.053709318841232]
人間ロボット協力(HRC)では、ロボットは人間と協力してタスクを一緒に達成します。既存のアプローチでは、人間が協力中に特定の目標を持っていると仮定し、ロボットはそれを推論し行動する。 HRCにおける目標仕様プロセスのダイナミクスをモデル化するEvolutionary Value Learning(EVL)アプローチを紹介します。
論文参考訳（メタデータ） (2020-12-19T20:27:09Z)
Joint Mind Modeling for Explanation Generation in Complex Human-Robot Collaborative Tasks [83.37025218216888]
本稿では,人間とロボットのコラボレーションにおいて,人間のようなコミュニケーションを実現するための新しい説明可能なAI(XAI)フレームワークを提案する。ロボットは、人間のユーザの階層的なマインドモデルを構築し、コミュニケーションの一形態として自身のマインドの説明を生成する。その結果,提案手法はロボットの協調動作性能とユーザ認識を著しく向上させることがわかった。
論文参考訳（メタデータ） (2020-07-24T23:35:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。