論文の概要: Swoosh! Rattle! Thump! -- Actions that Sound
- arxiv url: http://arxiv.org/abs/2007.01851v1
- Date: Fri, 3 Jul 2020 17:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 05:21:12.952010
- Title: Swoosh! Rattle! Thump! -- Actions that Sound
- Title(参考訳): Swoosh!
ラトル!
タンプ!
--音がする動作
- Authors: Dhiraj Gandhi, Abhinav Gupta, Lerrel Pinto
- Abstract要約: この研究は、音とロボットの動きの相互作用に関する最初の大規模な研究である。
ロボットプラットフォームであるTilt-Botを使って、60のオブジェクト上で15,000のインタラクションが可能な、利用可能な最大のサウンドアクションビジョンデータセットを作成します。
例えば、音は金属のドライバーと金属のレンチを区別することができる。
- 参考スコア(独自算出の注目度): 38.59779002672538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Truly intelligent agents need to capture the interplay of all their senses to
build a rich physical understanding of their world. In robotics, we have seen
tremendous progress in using visual and tactile perception; however, we have
often ignored a key sense: sound. This is primarily due to the lack of data
that captures the interplay of action and sound. In this work, we perform the
first large-scale study of the interactions between sound and robotic action.
To do this, we create the largest available sound-action-vision dataset with
15,000 interactions on 60 objects using our robotic platform Tilt-Bot. By
tilting objects and allowing them to crash into the walls of a robotic tray, we
collect rich four-channel audio information. Using this data, we explore the
synergies between sound and action and present three key insights. First, sound
is indicative of fine-grained object class information, e.g., sound can
differentiate a metal screwdriver from a metal wrench. Second, sound also
contains information about the causal effects of an action, i.e. given the
sound produced, we can predict what action was applied to the object. Finally,
object representations derived from audio embeddings are indicative of implicit
physical properties. We demonstrate that on previously unseen objects, audio
embeddings generated through interactions can predict forward models 24% better
than passive visual embeddings. Project videos and data are at
https://dhiraj100892.github.io/swoosh/
- Abstract(参考訳): 真に知的なエージェントは、彼らの世界に対する豊かな物理的理解を構築するために、すべての感覚の相互作用を捉える必要がある。
ロボット工学において、視覚と触覚の知覚は著しく進歩してきたが、私たちはしばしば重要な感覚である音を無視してきた。
これは主に、アクションとサウンドの相互作用をキャプチャするデータが欠如しているためである。
本研究では,音とロボットの相互作用に関する最初の大規模研究を行う。
これを実現するために、ロボットプラットフォームであるTilt-Botを使って、60のオブジェクト上で15,000のインタラクションを持つ、利用可能な最大規模のサウンドアクションビジョンデータセットを作成しました。
物体を傾けてロボットトレイの壁に衝突させることで、リッチな4チャンネルオーディオ情報を収集する。
このデータを用いて,音と動作の相乗効果を探索し,3つの重要な知見を提示する。
まず、音は、金属スクリュードライバーと金属レンチとを区別できるような、粒度の細かいオブジェクトクラス情報を示す。
第二に、音はまた、ある動作の因果効果、すなわち生成された音から、どの動作がオブジェクトに適用されたかを予測できる情報も含んでいる。
最後に、オーディオ埋め込みから派生したオブジェクト表現は、暗黙の物理的特性を示す。
従来は認識されていなかったオブジェクトでは、インタラクションによって生成された音声埋め込みが、受動的視覚埋め込みよりも24%優れたモデルを予測することができることを実証する。
プロジェクトビデオとデータはhttps://dhiraj100892.github.io/swoosh/にある。
関連論文リスト
- Combining Vision and Tactile Sensation for Video Prediction [0.0]
本研究では,触覚フィードバックを映像予測モデルに組み込んだ物理的ロボットインタラクションの効果について検討する。
磁気ベースの触覚センサを用いて教師なし学習を行うロボットプッシュの2つの新しいデータセットを紹介した。
以上の結果から,触覚フィードバックを映像予測モデルに組み込むことにより,シーン予測精度が向上し,エージェントの身体的相互作用に対する認識が向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-21T18:02:15Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Ditto in the House: Building Articulation Models of Indoor Scenes
through Interactive Perception [31.009703947432026]
本研究は,ロボットの意図的なインタラクションを通じて室内シーンの調音モデルを構築することを検討する。
この課題にインタラクティブな認識アプローチを導入する。
シミュレーションと実世界の両方において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-02-02T18:22:00Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [90.1102766891699]
EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。
我々は、データセット上で2つの最先端オーディオ認識モデルをトレーニングし、評価し、オーディオのみのラベルの重要性を強調した。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - That Sounds Right: Auditory Self-Supervision for Dynamic Robot
Manipulation [19.051800747558794]
本稿では、しばしば無視される情報源である音を利用する動的操作に対するデータ中心のアプローチを提案する。
まず、コモディティコンタクトマイクを用いて、5つの動的タスクにまたがる25kの相互作用音対のデータセットを収集する。
そして、自己教師付き学習を活用して、音からの行動予測を加速する。
論文 参考訳(メタデータ) (2022-10-03T17:57:09Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。