論文の概要: Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning
- arxiv url: http://arxiv.org/abs/2205.14850v1
- Date: Mon, 30 May 2022 04:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:37:37.982294
- Title: Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning
- Title(参考訳): 耳で演奏する:聴覚・視覚模倣学習による排他的学習スキル
- Authors: Maximilian Du, Olivia Y. Lee, Suraj Nair, Chelsea Finn
- Abstract要約: 我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
- 参考スコア(独自算出の注目度): 62.83590925557013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are capable of completing a range of challenging manipulation tasks
that require reasoning jointly over modalities such as vision, touch, and
sound. Moreover, many such tasks are partially-observed; for example, taking a
notebook out of a backpack will lead to visual occlusion and require reasoning
over the history of audio or tactile information. While robust tactile sensing
can be costly to capture on robots, microphones near or on a robot's gripper
are a cheap and easy way to acquire audio feedback of contact events, which can
be a surprisingly valuable data source for perception in the absence of vision.
Motivated by the potential for sound to mitigate visual occlusion, we aim to
learn a set of challenging partially-observed manipulation tasks from visual
and audio inputs. Our proposed system learns these tasks by combining offline
imitation learning from a modest number of tele-operated demonstrations and
online finetuning using human provided interventions. In a set of simulated
tasks, we find that our system benefits from using audio, and that by using
online interventions we are able to improve the success rate of offline
imitation learning by ~20%. Finally, we find that our system can complete a set
of challenging, partially-observed tasks on a Franka Emika Panda robot, like
extracting keys from a bag, with a 70% success rate, 50% higher than a policy
that does not use audio.
- Abstract(参考訳): 人間は、視覚、触覚、音といったモダリティを共同で推論する必要がある様々な困難な操作タスクを完了することができる。
例えば、バックパックからノートを取ると視覚的閉塞が生じ、オーディオや触覚情報の歴史を推論する必要がある。
頑丈な触覚センサーはロボットを捉えるのにコストがかかるが、ロボットのグリップの近くまたは上のマイクは、コンタクトイベントの音声フィードバックを取得するのに安価で簡単な方法である。
音が視覚的閉塞を緩和する可能性によって、視覚的および音声的な入力から部分的に観察された操作課題の集合を学習することを目指している。
提案システムは,遠隔操作型デモからオフライン模倣学習と人為的介入を用いたオンラインファインタニングを組み合わせることで,これらの課題を学習する。
シミュレーションタスクのセットでは,システムでは音声の利用が有効であり,オンライン介入を用いることで,オフライン模倣学習の成功率を約20%向上できることがわかった。
最後に、私たちのシステムは、フランカ・エミカ・パンダロボット上で、70%の成功率で、音声を使用しないポリシーよりも50%高い、キーをバッグから取り出すなど、挑戦的で部分的に観察された一連のタスクを完了することができることが分かりました。
関連論文リスト
- See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation [49.925499720323806]
視覚的、聴覚的、触覚的知覚が、ロボットが複雑な操作タスクを解くのにどのように役立つかを研究する。
私たちは、カメラで見たり、コンタクトマイクで聞いたり、視覚ベースの触覚センサーで感じるロボットシステムを構築しました。
論文 参考訳(メタデータ) (2022-12-07T18:55:53Z) - Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization [13.144367063836597]
本稿では,音声活動の検出と局所化結果の堅牢性を実現するための,エンドツーエンドのディープラーニング手法を提案する。
実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-01-06T05:40:16Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。