論文の概要: Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2211.11736v3
- Date: Sat, 1 Jul 2023 05:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 15:22:08.167799
- Title: Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた指導強化によるロボットスキル獲得
- Authors: Ted Xiao and Harris Chan and Pierre Sermanet and Ayzaan Wahid and
Anthony Brohan and Karol Hausman and Sergey Levine and Jonathan Tompson
- Abstract要約: 言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
- 参考スコア(独自算出の注目度): 70.82705830137708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, much progress has been made in learning robotic manipulation
policies that follow natural language instructions. Such methods typically
learn from corpora of robot-language data that was either collected with
specific tasks in mind or expensively re-labelled by humans with rich language
descriptions in hindsight. Recently, large-scale pretrained vision-language
models (VLMs) like CLIP or ViLD have been applied to robotics for learning
representations and scene descriptors. Can these pretrained models serve as
automatic labelers for robot data, effectively importing Internet-scale
knowledge into existing datasets to make them useful even for tasks that are
not reflected in their ground truth annotations? To accomplish this, we
introduce Data-driven Instruction Augmentation for Language-conditioned control
(DIAL): we utilize semi-supervised language labels leveraging the semantic
understanding of CLIP to propagate knowledge onto large datasets of unlabelled
demonstration data and then train language-conditioned policies on the
augmented datasets. This method enables cheaper acquisition of useful language
descriptions compared to expensive human labels, allowing for more efficient
label coverage of large-scale datasets. We apply DIAL to a challenging
real-world robotic manipulation domain where 96.5% of the 80,000 demonstrations
do not contain crowd-sourced language annotations. DIAL enables imitation
learning policies to acquire new capabilities and generalize to 60 novel
instructions unseen in the original dataset.
- Abstract(参考訳): 近年、自然言語の指示に従うロボット操作ポリシーの学習において、多くの進歩がなされている。
このような手法は通常、特定のタスクを念頭に置いて収集されたロボット言語データのコーパスから学習する。
近年,CLIP や ViLD のような大規模事前学習型視覚言語モデル (VLM) がロボット工学に応用されている。
これらの事前訓練されたモデルは、ロボットデータの自動ラベラーとして機能し、インターネット規模の知識を既存のデータセットに効果的にインポートして、基礎的真理のアノテーションに反映されていないタスクにも役立てることができるだろうか?
そこで本稿では,CLIPのセマンティック理解を活用して知識を大規模データセット上に伝播させ,拡張されたデータセット上で言語条件のポリシーを訓練する半教師付き言語ラベルを用いて,言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)を提案する。
この方法では、高価なヒトラベルに比べて有用な言語記述を安価に取得でき、大規模データセットのラベルカバレッジをより効率的にすることができる。
実世界のロボット操作領域では8万のデモのうち96.5%がクラウドソースの言語アノテーションを含まない。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
関連論文リスト
- Scaling Robot Policy Learning via Zero-Shot Labeling with Foundation Models [4.117963644248323]
NILS: 拡張性のための自然言語命令ラベリング。
NILSは、未処理の長距離ロボットデータをスケールで自動的にラベル付けする。
NILSを用いて430時間以上のロボットデータから得られた115k以上の軌道をラベル付けする。
論文 参考訳(メタデータ) (2024-10-23T11:19:48Z) - KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文 参考訳(メタデータ) (2024-09-21T08:45:16Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。