論文の概要: LaTTe: Language Trajectory TransformEr
- arxiv url: http://arxiv.org/abs/2208.02918v1
- Date: Thu, 4 Aug 2022 22:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:07:48.580379
- Title: LaTTe: Language Trajectory TransformEr
- Title(参考訳): latte: 言語軌跡トランスフォーマー
- Authors: Arthur Bucker, Luis Figueredo, Sami Haddadin, Ashish Kapoor, Shuang
Ma, Rogerio Bonatti
- Abstract要約: 本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
- 参考スコア(独自算出の注目度): 33.7939079214046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language is one of the most intuitive ways to express human intent.
However, translating instructions and commands towards robotic motion
generation, and deployment in the real world, is far from being an easy task.
Indeed, combining robotic's inherent low-level geometric and kinodynamic
constraints with human's high-level semantic information reinvigorates and
raises new challenges to the task-design problem -- typically leading to task
or hardware specific solutions with a static set of action targets and
commands. This work instead proposes a flexible language-based framework that
allows to modify generic 3D robotic trajectories using language commands with
reduced constraints about prior task or robot information. By taking advantage
of pre-trained language models, we employ an auto-regressive transformer to map
natural language inputs and contextual images into changes in 3D trajectories.
We show through simulations and real-life experiments that the model can
successfully follow human intent, modifying the shape and speed of trajectories
for multiple robotic platforms and contexts. This study takes a step into
building large pre-trained foundational models for robotics and shows how such
models can create more intuitive and flexible interactions between human and
machines. Codebase available at:
https://github.com/arthurfenderbucker/NL_trajectory_reshaper.
- Abstract(参考訳): 自然言語は人間の意図を表現する最も直感的な方法の1つである。
しかし、命令やコマンドをロボットの動き生成や現実世界への展開に翻訳することは、容易な作業ではない。
実際、ロボットに固有の低レベルの幾何学的およびキノダイナミックな制約と人間の高レベルの意味的情報の組み合わせは、タスク設計の問題に新たな課題を生じさせます。
この作業は、以前のタスクやロボット情報に関する制約を減らした言語コマンドを使用して、汎用的な3Dロボット軌道を修正可能な、柔軟な言語ベースのフレームワークを提案する。
事前学習した言語モデルを利用して、自然言語入力と文脈画像から3次元軌跡の変化をマッピングする自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、複数のロボットプラットフォームやコンテキストの軌跡の形状や速度を変更することで、モデルが人間の意図に従うことができることを示した。
この研究は、ロボット工学のための大規模なトレーニング済みの基礎モデルを構築するための一歩を踏み出し、そのようなモデルが人間と機械の間のより直感的で柔軟な相互作用をいかに生み出すかを示す。
Codebase は https://github.com/arthurfenderbucker/NL_trajectory_reshaper で入手できる。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。
Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。
これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。