論文の概要: Skills Made to Order: Efficient Acquisition of Robot Cooking Skills Guided by Multiple Forms of Internet Data
- arxiv url: http://arxiv.org/abs/2409.15172v1
- Date: Mon, 23 Sep 2024 16:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:13:28.233923
- Title: Skills Made to Order: Efficient Acquisition of Robot Cooking Skills Guided by Multiple Forms of Internet Data
- Title(参考訳): 注文するスキル:インターネットデータの複数形態によるロボット調理スキルの効率的な獲得
- Authors: Mrinal Verghese, Christopher Atkeson,
- Abstract要約: 我々は,様々なインターネットデータソースを用いて,一連のテンプレートロボットの動作を選択して,スキルを発揮できる方法を探究する。
その結果,LLMは視覚情報の欠如にもかかわらず驚くほど有能なテンプレートセレクタであることが判明した。
これらのシナジーを活用することで、ツール使用を含む16種類の調理スキルのセットで79%の成功率を達成する、複数種類のインターネットデータを用いたテンプレートセレクタを作成する。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study explores the utility of various internet data sources to select among a set of template robot behaviors to perform skills. Learning contact-rich skills involving tool use from internet data sources has typically been challenging due to the lack of physical information such as contact existence, location, areas, and force in this data. Prior works have generally used internet data and foundation models trained on this data to generate low-level robot behavior. We hypothesize that these data and models may be better suited to selecting among a set of basic robot behaviors to perform these contact-rich skills. We explore three methods of template selection: querying large language models, comparing video of robot execution to retrieved human video using features from a pretrained video encoder common in prior work, and performing the same comparison using features from an optic flow encoder trained on internet data. Our results show that LLMs are surprisingly capable template selectors despite their lack of visual information, optical flow encoding significantly outperforms video encoders trained with an order of magnitude more data, and important synergies exist between various forms of internet data for template selection. By exploiting these synergies, we create a template selector using multiple forms of internet data that achieves a 79\% success rate on a set of 16 different cooking skills involving tool-use.
- Abstract(参考訳): そこで本研究では,様々なインターネットデータソースを用いて,テンプレートロボットの動作を選別し,スキルを発揮できる方法を提案する。
インターネットデータソースからツールの使用に関するコンタクト豊富なスキルを学ぶことは、通常、このデータに接触の有無、位置、領域、力といった物理的な情報が欠如しているため、難しい。
これまでの研究は、インターネットのデータと、このデータに基づいて訓練された基礎モデルを使って、低レベルのロボットの振る舞いを生み出してきた。
我々は、これらのデータとモデルが、これらの接触に富むスキルを実行するための基本的なロボットの振る舞いのセットを選択するのに、より適しているかもしれないと仮定する。
テンプレート選択の方法は,大規模言語モデルのクエリ,事前学習されたビデオエンコーダの機能を用いたロボット実行のビデオと検索された人間のビデオを比較し,インターネットデータに基づいて訓練された光フローエンコーダの機能を用いて,同様の比較を行う,という3つの方法を検討する。
以上の結果から,LCMは視覚情報の欠如にもかかわらず驚くほど有能なテンプレートセレクタであり,映像エンコーダのエンコーダの精度は桁違いに向上し,テンプレート選択のためのインターネットデータ間の重要な相乗効果も有することがわかった。
これらのシナジーを活用することで、ツール使用を含む16種類の調理スキルのセットに対して、79 %の成功率を達成する複数のインターネットデータを用いたテンプレートセレクタを作成する。
関連論文リスト
- Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z) - Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - BridgeData V2: A Dataset for Robot Learning at Scale [73.86688388408021]
BridgeData V2は、ロボット操作行動の大規模で多様なデータセットである。
対象は、24の環境にまたがる60,096個のトラジェクトリだ。
論文 参考訳(メタデータ) (2023-08-24T17:41:20Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning from Demonstration with Weakly Supervised Disentanglement [19.292205450379996]
本稿では,確率的生成モデルに対する最適化問題として,実証から解釈可能な学習の課題を論じる。
このようなアライメントは、エンドユーザーからのラベルを使用することで、適切に制限された語彙で達成できることを示す。
本手法は,PR2ロボットが行う2つのテーブルトップロボット操作タスクの文脈で評価する。
論文 参考訳(メタデータ) (2020-06-16T12:29:51Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。