論文の概要: Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers
- arxiv url: http://arxiv.org/abs/2203.13411v1
- Date: Fri, 25 Mar 2022 01:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 23:24:27.407478
- Title: Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers
- Title(参考訳): 自然言語コマンドによるロボット軌跡の再構成:トランスフォーマーを用いたマルチモーダルデータアライメントの検討
- Authors: Arthur Bucker, Luis Figueredo, Sami Haddadin, Ashish Kapoor, Shuang
Ma, Rogerio Bonatti
- Abstract要約: 我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
- 参考スコア(独自算出の注目度): 33.7939079214046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language is the most intuitive medium for us to interact with other
people when expressing commands and instructions. However, using language is
seldom an easy task when humans need to express their intent towards robots,
since most of the current language interfaces require rigid templates with a
static set of action targets and commands. In this work, we provide a flexible
language-based interface for human-robot collaboration, which allows a user to
reshape existing trajectories for an autonomous agent. We take advantage of
recent advancements in the field of large language models (BERT and CLIP) to
encode the user command, and then combine these features with trajectory
information using multi-modal attention transformers. We train the model using
imitation learning over a dataset containing robot trajectories modified by
language commands, and treat the trajectory generation process as a sequence
prediction problem, analogously to how language generation architectures
operate. We evaluate the system in multiple simulated trajectory scenarios, and
show a significant performance increase of our model over baseline approaches.
In addition, our real-world experiments with a robot arm show that users
significantly prefer our natural language interface over traditional methods
such as kinesthetic teaching or cost-function programming. Our study shows how
the field of robotics can take advantage of large pre-trained language models
towards creating more intuitive interfaces between robots and machines. Project
webpage: https://arthurfenderbucker.github.io/NL_trajectory_reshaper/
- Abstract(参考訳): 自然言語は、命令や指示を表現するときに他の人と対話する最も直感的な媒体です。
しかし、現在の言語インターフェースのほとんどが静的なアクションターゲットとコマンドセットを持つ厳格なテンプレートを必要とするため、ロボットに対する意図を表現する必要のある場合、言語の使用は容易な作業ではない。
本研究では,人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は,ユーザコマンドを符号化する大規模言語モデル(BERT,CLIP)の分野での最近の進歩を生かして,これらの特徴をマルチモーダルアテンショントランスフォーマを用いた軌道情報と組み合わせる。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で模倣学習を用いてモデルを訓練し、軌道生成過程を言語生成アーキテクチャの動作に類似したシーケンス予測問題として扱う。
我々は,複数のシミュレーション軌道シナリオでシステム評価を行い,ベースラインアプローチによるモデルの性能向上を示す。
さらに,ロボットアームを用いた実世界実験では,審美的教育やコスト関数型プログラミングといった従来の手法よりも自然言語インターフェースが有意に好まれることが示された。
ロボット工学の分野において、ロボットと機械の間のより直感的なインタフェースを構築するために、大きな事前学習された言語モデルをどのように活用できるかを示す。
プロジェクトWebページ: https://arthurfenderbucker.github.io/NL_trajectory_reshaper/
関連論文リスト
- Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming [4.779196219827508]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。
このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。
12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文 参考訳(メタデータ) (2023-12-12T12:26:48Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文 参考訳(メタデータ) (2022-08-04T22:43:21Z) - Learning Flexible Translation between Robot Actions and Language
Descriptions [16.538887534958555]
本稿では,ロボット動作と言語記述とのフレキシブルな変換のためのペアゲートオートエンコーダ(PGAE)を提案する。
我々は、各アクションを、翻訳方向に関する信号を含む適切な記述とペアリングすることで、エンド・ツー・エンドでモデルを訓練する。
事前訓練された言語モデルを言語エンコーダとして使用するオプションにより、我々のモデルは目に見えない自然言語入力を認識することができる。
論文 参考訳(メタデータ) (2022-07-15T12:37:05Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。