論文の概要: Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2405.08576v1
- Date: Tue, 14 May 2024 13:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 14:08:58.067611
- Title: Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation
- Title(参考訳): 触覚:コンタクトリッチ操作のためのオーディオ・ビジュアル・プレトレーニング
- Authors: Jared Mejia, Victoria Dean, Tess Hellebrekers, Abhinav Gupta,
- Abstract要約: 現在のパラダイムは視覚表現のための大規模な事前訓練のみを実行する。
触覚などの他のモダリティを事前訓練するために、インターネットスケールのデータがどのように使われるのかは不明だ。
本稿では,コンタクトマイクを代替触覚センサとして利用することで,このギャップに対処する。
- 参考スコア(独自算出の注目度): 13.026061233933435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although pre-training on a large amount of data is beneficial for robot learning, current paradigms only perform large-scale pretraining for visual representations, whereas representations for other modalities are trained from scratch. In contrast to the abundance of visual data, it is unclear what relevant internet-scale data may be used for pretraining other modalities such as tactile sensing. Such pretraining becomes increasingly crucial in the low-data regimes common in robotics applications. In this paper, we address this gap by using contact microphones as an alternative tactile sensor. Our key insight is that contact microphones capture inherently audio-based information, allowing us to leverage large-scale audio-visual pretraining to obtain representations that boost the performance of robotic manipulation. To the best of our knowledge, our method is the first approach leveraging large-scale multisensory pre-training for robotic manipulation. For supplementary information including videos of real robot experiments, please see https://sites.google.com/view/hearing-touch.
- Abstract(参考訳): 大量のデータに対する事前学習は、ロボット学習にとって有益であるが、現在のパラダイムは視覚表現のための大規模な事前訓練のみを行うのに対し、他のモダリティの表現はゼロから訓練される。
視覚データが豊富であるのとは対照的に、触覚などの他のモダリティの事前訓練にインターネットスケールのデータがどのような意味を持つのかは定かではない。
このような事前訓練は、ロボット工学の応用に共通する低データ体制においてますます重要になっている。
本稿では,コンタクトマイクを代替触覚センサとして利用することで,このギャップに対処する。
私たちのキーとなる洞察は、コンタクトマイクが本質的にオーディオベースの情報をキャプチャし、ロボット操作の性能を高めるために、大規模オーディオ・ビジュアル・プレトレーニングを活用できるということです。
我々の知る限りでは、ロボット操作のための大規模マルチセンサー事前学習を活用した最初のアプローチである。
実際のロボット実験のビデオを含む補足情報については、https://sites.google.com/view/hearing-touchを参照してください。
関連論文リスト
- ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data [28.36623343236893]
我々は,同期音声と視覚的フィードバックを伴って人体でのデモを収集する「アー・イン・ハンド」データ収集装置であるManiWAVを紹介する。
また,本システムでは,多種多様な人間の実演から学習することで,未知の環境に一般化できることを示す。
論文 参考訳(メタデータ) (2024-06-27T18:06:38Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - That Sounds Right: Auditory Self-Supervision for Dynamic Robot
Manipulation [19.051800747558794]
本稿では、しばしば無視される情報源である音を利用する動的操作に対するデータ中心のアプローチを提案する。
まず、コモディティコンタクトマイクを用いて、5つの動的タスクにまたがる25kの相互作用音対のデータセットを収集する。
そして、自己教師付き学習を活用して、音からの行動予測を加速する。
論文 参考訳(メタデータ) (2022-10-03T17:57:09Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。