論文の概要: LaTTe: Language Trajectory TransformEr
- arxiv url: http://arxiv.org/abs/2208.02918v1
- Date: Thu, 4 Aug 2022 22:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:07:48.580379
- Title: LaTTe: Language Trajectory TransformEr
- Title(参考訳): latte: 言語軌跡トランスフォーマー
- Authors: Arthur Bucker, Luis Figueredo, Sami Haddadin, Ashish Kapoor, Shuang
Ma, Rogerio Bonatti
- Abstract要約: 本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
- 参考スコア(独自算出の注目度): 33.7939079214046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language is one of the most intuitive ways to express human intent.
However, translating instructions and commands towards robotic motion
generation, and deployment in the real world, is far from being an easy task.
Indeed, combining robotic's inherent low-level geometric and kinodynamic
constraints with human's high-level semantic information reinvigorates and
raises new challenges to the task-design problem -- typically leading to task
or hardware specific solutions with a static set of action targets and
commands. This work instead proposes a flexible language-based framework that
allows to modify generic 3D robotic trajectories using language commands with
reduced constraints about prior task or robot information. By taking advantage
of pre-trained language models, we employ an auto-regressive transformer to map
natural language inputs and contextual images into changes in 3D trajectories.
We show through simulations and real-life experiments that the model can
successfully follow human intent, modifying the shape and speed of trajectories
for multiple robotic platforms and contexts. This study takes a step into
building large pre-trained foundational models for robotics and shows how such
models can create more intuitive and flexible interactions between human and
machines. Codebase available at:
https://github.com/arthurfenderbucker/NL_trajectory_reshaper.
- Abstract(参考訳): 自然言語は人間の意図を表現する最も直感的な方法の1つである。
しかし、命令やコマンドをロボットの動き生成や現実世界への展開に翻訳することは、容易な作業ではない。
実際、ロボットに固有の低レベルの幾何学的およびキノダイナミックな制約と人間の高レベルの意味的情報の組み合わせは、タスク設計の問題に新たな課題を生じさせます。
この作業は、以前のタスクやロボット情報に関する制約を減らした言語コマンドを使用して、汎用的な3Dロボット軌道を修正可能な、柔軟な言語ベースのフレームワークを提案する。
事前学習した言語モデルを利用して、自然言語入力と文脈画像から3次元軌跡の変化をマッピングする自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、複数のロボットプラットフォームやコンテキストの軌跡の形状や速度を変更することで、モデルが人間の意図に従うことができることを示した。
この研究は、ロボット工学のための大規模なトレーニング済みの基礎モデルを構築するための一歩を踏み出し、そのようなモデルが人間と機械の間のより直感的で柔軟な相互作用をいかに生み出すかを示す。
Codebase は https://github.com/arthurfenderbucker/NL_trajectory_reshaper で入手できる。
関連論文リスト
- Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。