論文の概要: Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables
- arxiv url: http://arxiv.org/abs/2311.00320v1
- Date: Wed, 1 Nov 2023 06:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:30:20.635858
- Title: Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables
- Title(参考訳): セマンティック聴力:バイノーラル聴力による音響シーンのプログラミング
- Authors: Bandhav Veluri, Malek Itani, Justin Chan, Takuya Yoshioka, Shyamnath
Gollakota
- Abstract要約: 実環境からの特定の音に焦点を絞ったり、無視したりできる、可聴性デバイスのための新しい機能であるセマンティック・ヒアリングを導入する。
干渉音や背景雑音の存在下で対象音を抽出できる最初のニューラルネットワークを提案する。
我々は,実世界の利用を一般化する訓練手法を設計する。
- 参考スコア(独自算出の注目度): 14.69686698644447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagine being able to listen to the birds chirping in a park without hearing
the chatter from other hikers, or being able to block out traffic noise on a
busy street while still being able to hear emergency sirens and car honks. We
introduce semantic hearing, a novel capability for hearable devices that
enables them to, in real-time, focus on, or ignore, specific sounds from
real-world environments, while also preserving the spatial cues. To achieve
this, we make two technical contributions: 1) we present the first neural
network that can achieve binaural target sound extraction in the presence of
interfering sounds and background noise, and 2) we design a training
methodology that allows our system to generalize to real-world use. Results
show that our system can operate with 20 sound classes and that our
transformer-based network has a runtime of 6.56 ms on a connected smartphone.
In-the-wild evaluation with participants in previously unseen indoor and
outdoor scenarios shows that our proof-of-concept system can extract the target
sounds and generalize to preserve the spatial cues in its binaural output.
Project page with code: https://semantichearing.cs.washington.edu
- Abstract(参考訳): 他のハイカーからおしゃべりを聞くことなく、公園で鳴く鳥の音を聞くことができたり、にぎやかな通りで交通騒音を遮断したりしながら、緊急のサイレンや車の音を聞くことができたりできる。
これは、リアルタイムに、現実世界の環境から特定の音に焦点を当てたり、無視したりできる新しい聴覚デバイス機能で、空間的な手がかりも保存できる。
これを達成するために、私たちは2つの技術的な貢献をします。
1)干渉音と背景雑音の存在下でバイノーラル目標音抽出を実現する最初のニューラルネットワークを提案する。
2)本システムは実世界の利用を一般化する訓練手法を設計する。
その結果,本システムは20の音響クラスで動作可能であり,コンバインドスマートフォン上では6.56msのトランスフォーマーネットワークが動作可能であることがわかった。
室内および屋外のシナリオにおける実地実験の結果から, 概念実証システムは対象音を抽出し, 空間的手がかりをバイノーラル出力に保存できることがわかった。
コード付きプロジェクトページ:https://semantichearing.cs.washington.edu
関連論文リスト
- Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization [13.144367063836597]
本稿では,音声活動の検出と局所化結果の堅牢性を実現するための,エンドツーエンドのディープラーニング手法を提案する。
実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-01-06T05:40:16Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - A Deep Reinforcement Learning Approach to Audio-Based Navigation in a
Multi-Speaker Environment [1.0527821704930371]
環境からの生の聴覚感覚情報のみを使用して、2次元空間をナビゲートできる自律エージェントを作成します。
私たちの実験は、エージェントが部屋の$ N$事前定義されたスピーカーのセットの中で特定のターゲットスピーカーを首尾よく識別できることを示しています。
エージェントは、話者ピッチシフトに対して堅牢であり、各話者に対して限られた数の訓練発話が利用できる場合でも、環境をナビゲートすることができる。
論文 参考訳(メタデータ) (2021-05-10T16:26:47Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。