論文の概要: LILA: Language-Informed Latent Actions
- arxiv url: http://arxiv.org/abs/2111.03205v1
- Date: Fri, 5 Nov 2021 00:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:23:26.751208
- Title: LILA: Language-Informed Latent Actions
- Title(参考訳): lila: 言語に変形した潜在アクション
- Authors: Siddharth Karamcheti, Megha Srivastava, Percy Liang, Dorsa Sadigh
- Abstract要約: 本稿では,自然言語インタフェースの学習フレームワークであるLanguage-Informed Latent Actions (LILA)を紹介する。
LILAは低次元のコントローラを変調するために言語を使うことを学び、ユーザに言語インフォームドコントロールスペースを提供する。
LILAモデルは、模擬学習やエンドエフェクタ制御ベースラインよりもサンプリング効率が高く、性能も高いだけでなく、ユーザによって定性的に好まれることを示す。
- 参考スコア(独自算出の注目度): 72.033770901278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Language-Informed Latent Actions (LILA), a framework for
learning natural language interfaces in the context of human-robot
collaboration. LILA falls under the shared autonomy paradigm: in addition to
providing discrete language inputs, humans are given a low-dimensional
controller $-$ e.g., a 2 degree-of-freedom (DoF) joystick that can move
left/right and up/down $-$ for operating the robot. LILA learns to use language
to modulate this controller, providing users with a language-informed control
space: given an instruction like "place the cereal bowl on the tray," LILA may
learn a 2-DoF space where one dimension controls the distance from the robot's
end-effector to the bowl, and the other dimension controls the robot's
end-effector pose relative to the grasp point on the bowl. We evaluate LILA
with real-world user studies, where users can provide a language instruction
while operating a 7-DoF Franka Emika Panda Arm to complete a series of complex
manipulation tasks. We show that LILA models are not only more sample efficient
and performant than imitation learning and end-effector control baselines, but
that they are also qualitatively preferred by users.
- Abstract(参考訳): 本稿では,自然言語インタフェースの学習フレームワークであるLanguage-Informed Latent Actions (LILA)を紹介する。
個別の言語入力を提供するのに加えて、人間には低次元のコントローラが与えられ、例えば2自由度(dof)ジョイスティックは左右に移動でき、ロボットを操作するのに1ドル(約1万2000円)もかかる。
LILAは、言語による制御空間を提供する:「トレイにシリアルボウルを置く」という命令を与えられたLILAは、ロボットのエンドエフェクターからボウルまでの距離を1次元が制御する2-DoF空間を学習し、他の次元がロボットのエンドエフェクターがボウルのグリップポイントに対してポーズする。
7-DoFのFranka Emika Panda Armを動作させると、LILAを実世界のユーザスタディで評価し、複雑な操作タスクを完了させる。
LILAモデルは、模擬学習やエンドエフェクタ制御ベースラインよりもサンプリング効率が高く、性能も高いだけでなく、ユーザによって定性的に好まれることを示す。
関連論文リスト
- Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation [11.92150014766458]
我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。
我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。
モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
論文 参考訳(メタデータ) (2022-06-17T03:07:18Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。