論文の概要: Swoosh! Rattle! Thump! -- Actions that Sound
- arxiv url: http://arxiv.org/abs/2007.01851v1
- Date: Fri, 3 Jul 2020 17:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 05:21:12.952010
- Title: Swoosh! Rattle! Thump! -- Actions that Sound
- Title(参考訳): Swoosh!
ラトル!
タンプ!
--音がする動作
- Authors: Dhiraj Gandhi, Abhinav Gupta, Lerrel Pinto
- Abstract要約: この研究は、音とロボットの動きの相互作用に関する最初の大規模な研究である。
ロボットプラットフォームであるTilt-Botを使って、60のオブジェクト上で15,000のインタラクションが可能な、利用可能な最大のサウンドアクションビジョンデータセットを作成します。
例えば、音は金属のドライバーと金属のレンチを区別することができる。
- 参考スコア(独自算出の注目度): 38.59779002672538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Truly intelligent agents need to capture the interplay of all their senses to
build a rich physical understanding of their world. In robotics, we have seen
tremendous progress in using visual and tactile perception; however, we have
often ignored a key sense: sound. This is primarily due to the lack of data
that captures the interplay of action and sound. In this work, we perform the
first large-scale study of the interactions between sound and robotic action.
To do this, we create the largest available sound-action-vision dataset with
15,000 interactions on 60 objects using our robotic platform Tilt-Bot. By
tilting objects and allowing them to crash into the walls of a robotic tray, we
collect rich four-channel audio information. Using this data, we explore the
synergies between sound and action and present three key insights. First, sound
is indicative of fine-grained object class information, e.g., sound can
differentiate a metal screwdriver from a metal wrench. Second, sound also
contains information about the causal effects of an action, i.e. given the
sound produced, we can predict what action was applied to the object. Finally,
object representations derived from audio embeddings are indicative of implicit
physical properties. We demonstrate that on previously unseen objects, audio
embeddings generated through interactions can predict forward models 24% better
than passive visual embeddings. Project videos and data are at
https://dhiraj100892.github.io/swoosh/
- Abstract(参考訳): 真に知的なエージェントは、彼らの世界に対する豊かな物理的理解を構築するために、すべての感覚の相互作用を捉える必要がある。
ロボット工学において、視覚と触覚の知覚は著しく進歩してきたが、私たちはしばしば重要な感覚である音を無視してきた。
これは主に、アクションとサウンドの相互作用をキャプチャするデータが欠如しているためである。
本研究では,音とロボットの相互作用に関する最初の大規模研究を行う。
これを実現するために、ロボットプラットフォームであるTilt-Botを使って、60のオブジェクト上で15,000のインタラクションを持つ、利用可能な最大規模のサウンドアクションビジョンデータセットを作成しました。
物体を傾けてロボットトレイの壁に衝突させることで、リッチな4チャンネルオーディオ情報を収集する。
このデータを用いて,音と動作の相乗効果を探索し,3つの重要な知見を提示する。
まず、音は、金属スクリュードライバーと金属レンチとを区別できるような、粒度の細かいオブジェクトクラス情報を示す。
第二に、音はまた、ある動作の因果効果、すなわち生成された音から、どの動作がオブジェクトに適用されたかを予測できる情報も含んでいる。
最後に、オーディオ埋め込みから派生したオブジェクト表現は、暗黙の物理的特性を示す。
従来は認識されていなかったオブジェクトでは、インタラクションによって生成された音声埋め込みが、受動的視覚埋め込みよりも24%優れたモデルを予測することができることを実証する。
プロジェクトビデオとデータはhttps://dhiraj100892.github.io/swoosh/にある。
関連論文リスト
- ANAVI: Audio Noise Awareness using Visuals of Indoor environments for NAVIgation [26.460679530665487]
より静かなロボット経路計画のためのNAVIgationのための室内視覚を用いた騒音認識手法を提案する。
我々は、模擬住宅の異なるリスナー場所で「インパルス」の音の大きさのデータを生成し、音響騒音予測器(ANP)を訓練する。
動作音響とANPを統合し,車輪付きロボット(Hello Robot Stretch)と脚付きロボット(Unitree Go2)を用いて,これらのロボットが環境の騒音制約に適合するように実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:19:53Z) - You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data [28.36623343236893]
我々は,同期音声と視覚的フィードバックを伴って人体でのデモを収集する「アー・イン・ハンド」データ収集装置であるManiWAVを紹介する。
また,本システムでは,多種多様な人間の実演から学習することで,未知の環境に一般化できることを示す。
論文 参考訳(メタデータ) (2024-06-27T18:06:38Z) - Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation [13.026061233933435]
現在のパラダイムは視覚表現のための大規模な事前訓練のみを実行する。
触覚などの他のモダリティを事前訓練するために、インターネットスケールのデータがどのように使われるのかは不明だ。
本稿では,コンタクトマイクを代替触覚センサとして利用することで,このギャップに対処する。
論文 参考訳(メタデータ) (2024-05-14T13:16:46Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。