論文の概要: That Sounds Right: Auditory Self-Supervision for Dynamic Robot
Manipulation
- arxiv url: http://arxiv.org/abs/2210.01116v1
- Date: Mon, 3 Oct 2022 17:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 18:12:16.368794
- Title: That Sounds Right: Auditory Self-Supervision for Dynamic Robot
Manipulation
- Title(参考訳): ダイナミックロボット操作のための聴覚自己スーパービジョン
- Authors: Abitha Thankaraj and Lerrel Pinto
- Abstract要約: 本稿では、しばしば無視される情報源である音を利用する動的操作に対するデータ中心のアプローチを提案する。
まず、コモディティコンタクトマイクを用いて、5つの動的タスクにまたがる25kの相互作用音対のデータセットを収集する。
そして、自己教師付き学習を活用して、音からの行動予測を加速する。
- 参考スコア(独自算出の注目度): 19.051800747558794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to produce contact-rich, dynamic behaviors from raw sensory data has
been a longstanding challenge in robotics. Prominent approaches primarily focus
on using visual or tactile sensing, where unfortunately one fails to capture
high-frequency interaction, while the other can be too delicate for large-scale
data collection. In this work, we propose a data-centric approach to dynamic
manipulation that uses an often ignored source of information: sound. We first
collect a dataset of 25k interaction-sound pairs across five dynamic tasks
using commodity contact microphones. Then, given this data, we leverage
self-supervised learning to accelerate behavior prediction from sound. Our
experiments indicate that this self-supervised 'pretraining' is crucial to
achieving high performance, with a 34.5% lower MSE than plain supervised
learning and a 54.3% lower MSE over visual training. Importantly, we find that
when asked to generate desired sound profiles, online rollouts of our models on
a UR10 robot can produce dynamic behavior that achieves an average of 11.5%
improvement over supervised learning on audio similarity metrics.
- Abstract(参考訳): 生の感覚データから接触が豊富でダイナミックな行動を生み出すことを学ぶことは、ロボット工学において長年の課題だった。
目立ったアプローチは主に視覚や触覚のセンシングに重点を置いており、残念ながら高周波のインタラクションを捉えられず、一方は大規模なデータ収集には繊細すぎる可能性がある。
本研究では,しばしば無視される情報源である音を用いた動的操作に対するデータ中心のアプローチを提案する。
まず,5つの動的タスクにまたがる25kの対話音対のデータセットを,コモディティなコンタクトマイクロホンを用いて収集した。
そして,このデータから自己教師付き学習を活用し,音声からの行動予測を高速化する。
実験の結果,この自己指導型「事前学習」は,通常の指導型学習よりも34.5%,視覚的トレーニングより54.3%低いMSEで,ハイパフォーマンスを実現する上で不可欠であることが示唆された。
重要なことは、所望のサウンドプロファイルを生成するように要求されると、UR10ロボット上での我々のモデルのオンラインロールアウトは、音声類似度測定における教師あり学習よりも平均11.5%改善する動的な振る舞いを生み出すことができる。
関連論文リスト
- Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation [13.026061233933435]
現在のパラダイムは視覚表現のための大規模な事前訓練のみを実行する。
触覚などの他のモダリティを事前訓練するために、インターネットスケールのデータがどのように使われるのかは不明だ。
本稿では,コンタクトマイクを代替触覚センサとして利用することで,このギャップに対処する。
論文 参考訳(メタデータ) (2024-05-14T13:16:46Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Federated Self-Training for Semi-Supervised Audio Recognition [0.23633885460047763]
本研究では,自己学習による音声モデルの半教師あり学習の問題について検討する。
我々はFedSTARを提案し、大規模なデバイス上での未ラベルデータを利用して音声認識モデルの一般化を改善する。
論文 参考訳(メタデータ) (2021-07-14T17:40:10Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。