論文の概要: Language-Driven Representation Learning for Robotics
- arxiv url: http://arxiv.org/abs/2302.12766v1
- Date: Fri, 24 Feb 2023 17:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 12:41:33.852085
- Title: Language-Driven Representation Learning for Robotics
- Title(参考訳): ロボットのための言語駆動表現学習
- Authors: Siddharth Karamcheti, Suraj Nair, Annie S. Chen, Thomas Kollar,
Chelsea Finn, Dorsa Sadigh, Percy Liang
- Abstract要約: ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
- 参考スコア(独自算出の注目度): 115.93273609767145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in visual representation learning for robotics demonstrates the
viability of learning from large video datasets of humans performing everyday
tasks. Leveraging methods such as masked autoencoding and contrastive learning,
these representations exhibit strong transfer to policy learning for visuomotor
control. But, robot learning encompasses a diverse set of problems beyond
control including grasp affordance prediction, language-conditioned imitation
learning, and intent scoring for human-robot collaboration, amongst others.
First, we demonstrate that existing representations yield inconsistent results
across these tasks: masked autoencoding approaches pick up on low-level spatial
features at the cost of high-level semantics, while contrastive learning
approaches capture the opposite. We then introduce Voltron, a framework for
language-driven representation learning from human videos and associated
captions. Voltron trades off language-conditioned visual reconstruction to
learn low-level visual patterns, and visually-grounded language generation to
encode high-level semantics. We also construct a new evaluation suite spanning
five distinct robot learning problems $\unicode{x2013}$ a unified platform for
holistically evaluating visual representations for robotics. Through
comprehensive, controlled experiments across all five problems, we find that
Voltron's language-driven representations outperform the prior
state-of-the-art, especially on targeted problems requiring higher-level
features.
- Abstract(参考訳): ロボティクスのためのビジュアル表現学習の最近の研究は、日々のタスクを行う人間の大規模なビデオデータセットから学習する可能性を示している。
マスク付きオートエンコーディングやコントラスト学習などの手法を用いることで、これらの表現はビジュモータ制御のためのポリシー学習への強い移行を示す。
しかし、ロボット学習には、把握能力予測、言語条件付き模倣学習、人間とロボットのコラボレーションのための意図スコアなど、コントロールを超えたさまざまな問題が含まれている。
マスク付き自己エンコーディング手法は、高レベルの意味論を犠牲にして低レベルの空間的特徴を拾い上げ、対照的な学習手法は逆を捉えている。
次に、人間のビデオと関連するキャプションから言語駆動表現を学習するためのフレームワークであるvoltronを紹介する。
Voltronは、低レベルな視覚パターンを学ぶために、言語条件の視覚的再構成と、高レベルなセマンティクスをエンコードする視覚的な言語生成を交換する。
また,ロボット工学の視覚表現を総合的に評価するための統合プラットフォームとして,5つの異なるロボット学習問題にまたがる評価スイートを新たに構築した。
5つの問題すべてにわたる包括的な制御された実験を通して、Voltronの言語駆動表現は、特に高レベルな機能を必要とするターゲット問題において、最先端技術よりも優れていることが判明した。
関連論文リスト
- Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。
本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。
本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文 参考訳(メタデータ) (2024-07-20T13:22:59Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。