論文の概要: Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning
- arxiv url: http://arxiv.org/abs/2205.14850v1
- Date: Mon, 30 May 2022 04:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:37:37.982294
- Title: Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning
- Title(参考訳): 耳で演奏する:聴覚・視覚模倣学習による排他的学習スキル
- Authors: Maximilian Du, Olivia Y. Lee, Suraj Nair, Chelsea Finn
- Abstract要約: 我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
- 参考スコア(独自算出の注目度): 62.83590925557013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are capable of completing a range of challenging manipulation tasks
that require reasoning jointly over modalities such as vision, touch, and
sound. Moreover, many such tasks are partially-observed; for example, taking a
notebook out of a backpack will lead to visual occlusion and require reasoning
over the history of audio or tactile information. While robust tactile sensing
can be costly to capture on robots, microphones near or on a robot's gripper
are a cheap and easy way to acquire audio feedback of contact events, which can
be a surprisingly valuable data source for perception in the absence of vision.
Motivated by the potential for sound to mitigate visual occlusion, we aim to
learn a set of challenging partially-observed manipulation tasks from visual
and audio inputs. Our proposed system learns these tasks by combining offline
imitation learning from a modest number of tele-operated demonstrations and
online finetuning using human provided interventions. In a set of simulated
tasks, we find that our system benefits from using audio, and that by using
online interventions we are able to improve the success rate of offline
imitation learning by ~20%. Finally, we find that our system can complete a set
of challenging, partially-observed tasks on a Franka Emika Panda robot, like
extracting keys from a bag, with a 70% success rate, 50% higher than a policy
that does not use audio.
- Abstract(参考訳): 人間は、視覚、触覚、音といったモダリティを共同で推論する必要がある様々な困難な操作タスクを完了することができる。
例えば、バックパックからノートを取ると視覚的閉塞が生じ、オーディオや触覚情報の歴史を推論する必要がある。
頑丈な触覚センサーはロボットを捉えるのにコストがかかるが、ロボットのグリップの近くまたは上のマイクは、コンタクトイベントの音声フィードバックを取得するのに安価で簡単な方法である。
音が視覚的閉塞を緩和する可能性によって、視覚的および音声的な入力から部分的に観察された操作課題の集合を学習することを目指している。
提案システムは,遠隔操作型デモからオフライン模倣学習と人為的介入を用いたオンラインファインタニングを組み合わせることで,これらの課題を学習する。
シミュレーションタスクのセットでは,システムでは音声の利用が有効であり,オンライン介入を用いることで,オフライン模倣学習の成功率を約20%向上できることがわかった。
最後に、私たちのシステムは、フランカ・エミカ・パンダロボット上で、70%の成功率で、音声を使用しないポリシーよりも50%高い、キーをバッグから取り出すなど、挑戦的で部分的に観察された一連のタスクを完了することができることが分かりました。
関連論文リスト
- VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data [28.36623343236893]
我々は,同期音声と視覚的フィードバックを伴って人体でのデモを収集する「アー・イン・ハンド」データ収集装置であるManiWAVを紹介する。
また,本システムでは,多種多様な人間の実演から学習することで,未知の環境に一般化できることを示す。
論文 参考訳(メタデータ) (2024-06-27T18:06:38Z) - Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation [13.026061233933435]
現在のパラダイムは視覚表現のための大規模な事前訓練のみを実行する。
触覚などの他のモダリティを事前訓練するために、インターネットスケールのデータがどのように使われるのかは不明だ。
本稿では,コンタクトマイクを代替触覚センサとして利用することで,このギャップに対処する。
論文 参考訳(メタデータ) (2024-05-14T13:16:46Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization [13.144367063836597]
本稿では,音声活動の検出と局所化結果の堅牢性を実現するための,エンドツーエンドのディープラーニング手法を提案する。
実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-01-06T05:40:16Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。