論文の概要: That Sounds Right: Auditory Self-Supervision for Dynamic Robot
Manipulation
- arxiv url: http://arxiv.org/abs/2210.01116v1
- Date: Mon, 3 Oct 2022 17:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 18:12:16.368794
- Title: That Sounds Right: Auditory Self-Supervision for Dynamic Robot
Manipulation
- Title(参考訳): ダイナミックロボット操作のための聴覚自己スーパービジョン
- Authors: Abitha Thankaraj and Lerrel Pinto
- Abstract要約: 本稿では、しばしば無視される情報源である音を利用する動的操作に対するデータ中心のアプローチを提案する。
まず、コモディティコンタクトマイクを用いて、5つの動的タスクにまたがる25kの相互作用音対のデータセットを収集する。
そして、自己教師付き学習を活用して、音からの行動予測を加速する。
- 参考スコア(独自算出の注目度): 19.051800747558794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to produce contact-rich, dynamic behaviors from raw sensory data has
been a longstanding challenge in robotics. Prominent approaches primarily focus
on using visual or tactile sensing, where unfortunately one fails to capture
high-frequency interaction, while the other can be too delicate for large-scale
data collection. In this work, we propose a data-centric approach to dynamic
manipulation that uses an often ignored source of information: sound. We first
collect a dataset of 25k interaction-sound pairs across five dynamic tasks
using commodity contact microphones. Then, given this data, we leverage
self-supervised learning to accelerate behavior prediction from sound. Our
experiments indicate that this self-supervised 'pretraining' is crucial to
achieving high performance, with a 34.5% lower MSE than plain supervised
learning and a 54.3% lower MSE over visual training. Importantly, we find that
when asked to generate desired sound profiles, online rollouts of our models on
a UR10 robot can produce dynamic behavior that achieves an average of 11.5%
improvement over supervised learning on audio similarity metrics.
- Abstract(参考訳): 生の感覚データから接触が豊富でダイナミックな行動を生み出すことを学ぶことは、ロボット工学において長年の課題だった。
目立ったアプローチは主に視覚や触覚のセンシングに重点を置いており、残念ながら高周波のインタラクションを捉えられず、一方は大規模なデータ収集には繊細すぎる可能性がある。
本研究では,しばしば無視される情報源である音を用いた動的操作に対するデータ中心のアプローチを提案する。
まず,5つの動的タスクにまたがる25kの対話音対のデータセットを,コモディティなコンタクトマイクロホンを用いて収集した。
そして,このデータから自己教師付き学習を活用し,音声からの行動予測を高速化する。
実験の結果,この自己指導型「事前学習」は,通常の指導型学習よりも34.5%,視覚的トレーニングより54.3%低いMSEで,ハイパフォーマンスを実現する上で不可欠であることが示唆された。
重要なことは、所望のサウンドプロファイルを生成するように要求されると、UR10ロボット上での我々のモデルのオンラインロールアウトは、音声類似度測定における教師あり学習よりも平均11.5%改善する動的な振る舞いを生み出すことができる。
関連論文リスト
- Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Palm up: Playing in the Latent Manifold for Unsupervised Pretraining [31.92145741769497]
本稿では,多種多様なデータセットを使用しながら探索行動を示すアルゴリズムを提案する。
私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。
次に、教師なし強化学習アルゴリズムを用いて、この環境を探索し、収集したデータに基づいて教師なし表現学習を行う。
論文 参考訳(メタデータ) (2022-10-19T22:26:12Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Federated Self-Training for Semi-Supervised Audio Recognition [0.23633885460047763]
本研究では,自己学習による音声モデルの半教師あり学習の問題について検討する。
我々はFedSTARを提案し、大規模なデバイス上での未ラベルデータを利用して音声認識モデルの一般化を改善する。
論文 参考訳(メタデータ) (2021-07-14T17:40:10Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。