論文の概要: Words2Contact: Identifying Support Contacts from Verbal Instructions Using Foundation Models
- arxiv url: http://arxiv.org/abs/2407.14229v2
- Date: Mon, 09 Dec 2024 14:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:48:12.667071
- Title: Words2Contact: Identifying Support Contacts from Verbal Instructions Using Foundation Models
- Title(参考訳): Words2Contact:基礎モデルを用いた言語指導からのサポートコンタクトの同定
- Authors: Dionis Totsila, Quentin Rouxel, Jean-Baptiste Mouret, Serena Ivaldi,
- Abstract要約: 本稿では,言語誘導型マルチコンタクト配置パイプラインであるWords2Contactを紹介する。
ユーザでさえ,システムに正確な位置の取得を指示する方法を,素早い学習で学べることが示される。
我々は,Talosのヒューマノイドロボットを用いた実世界実験においてWords2Contactを検証する。
- 参考スコア(独自算出の注目度): 7.055363727068046
- License:
- Abstract: This paper presents Words2Contact, a language-guided multi-contact placement pipeline leveraging large language models and vision language models. Our method is a key component for language-assisted teleoperation and human-robot cooperation, where human operators can instruct the robots where to place their support contacts before whole-body reaching or manipulation using natural language. Words2Contact transforms the verbal instructions of a human operator into contact placement predictions; it also deals with iterative corrections, until the human is satisfied with the contact location identified in the robot's field of view. We benchmark state-of-the-art LLMs and VLMs for size and performance in contact prediction. We demonstrate the effectiveness of the iterative correction process, showing that users, even naive, quickly learn how to instruct the system to obtain accurate locations. Finally, we validate Words2Contact in real-world experiments with the Talos humanoid robot, instructed by human operators to place support contacts on different locations and surfaces to avoid falling when reaching for distant objects.
- Abstract(参考訳): 本稿では,大規模言語モデルと視覚言語モデルを活用した言語誘導型多言語配置パイプラインであるWords2Contactを提案する。
本手法は,ロボットに対して,人体が自然言語で手を伸ばしたり操作したりする前に,ロボットに支援相手を配置するように指示する,言語支援遠隔操作と人間ロボット協調のための重要な要素である。
Words2Contactは、人間の操作者の言葉による指示を接触配置予測に変換し、ロボットの視野で特定された接触位置に人が満足するまで、反復的な修正も処理する。
我々は,接触予測におけるサイズと性能について,最先端のLDMとVLMのベンチマークを行った。
提案手法の有効性を実証し, ユーザが, 素直でも, システムに正確な位置を求める方法を素早く学べるようにした。
最後に,タロス人型ロボットを用いた実世界実験において,Words2Contactの有効性を検証する。
関連論文リスト
- Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。
本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T12:15:14Z) - Contact-aware Human Motion Generation from Textual Descriptions [57.871692507044344]
本稿では,テキストから3次元対話型人間の動作を生成する問題に対処する。
私たちは「Contact-Aware Texts」を表すRICH-CATという新しいデータセットを作成します。
そこで本研究では,テキストによる対話型人間の動作合成のためのCATMOという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T04:08:39Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - HandMeThat: Human-Robot Communication in Physical and Social
Environments [73.91355172754717]
HandMeThatは、物理的および社会的環境における命令理解とフォローの総合評価のためのベンチマークである。
HandMeThatには、人間とロボットの対話の1万エピソードが含まれている。
オフラインとオンラインの強化学習アルゴリズムはHandMeThatでは性能が良くないことを示す。
論文 参考訳(メタデータ) (2023-10-05T16:14:46Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Talk-to-Resolve: Combining scene understanding and spatial dialogue to
resolve granular task ambiguity for a collocated robot [15.408128612723882]
ロボットのコロケーションの実用性は、人間との容易で直感的な相互作用機構に大きく依存する。
本稿では,TTR(Talk-to-Resolve)と呼ばれるシステムについて述べる。
本システムでは,82%の精度でスタレマトを同定し,適切な対話交換で解決することができる。
論文 参考訳(メタデータ) (2021-11-22T10:42:59Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Composing Pick-and-Place Tasks By Grounding Language [41.075844857146805]
制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-16T11:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。