論文の概要: Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds
- arxiv url: http://arxiv.org/abs/2109.02763v1
- Date: Mon, 6 Sep 2021 22:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:25:29.813638
- Title: Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds
- Title(参考訳): バイノーラル・サウンドネット:バイノーラル・サウンドによる意味・深さ・動きの予測
- Authors: Dengxin Dai, Arun Balajee Vasudevan, Jiri Matas, and Luc Van Gool
- Abstract要約: 人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
- 参考スコア(独自算出の注目度): 118.54908665440826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can robustly recognize and localize objects by using visual and/or
auditory cues. While machines are able to do the same with visual data already,
less work has been done with sounds. This work develops an approach for scene
understanding purely based on binaural sounds. The considered tasks include
predicting the semantic masks of sound-making objects, the motion of
sound-making objects, and the depth map of the scene. To this aim, we propose a
novel sensor setup and record a new audio-visual dataset of street scenes with
eight professional binaural microphones and a 360-degree camera. The
co-existence of visual and audio cues is leveraged for supervision transfer. In
particular, we employ a cross-modal distillation framework that consists of
multiple vision teacher methods and a sound student method -- the student
method is trained to generate the same results as the teacher methods do. This
way, the auditory system can be trained without using human annotations. To
further boost the performance, we propose another novel auxiliary task, coined
Spatial Sound Super-Resolution, to increase the directional resolution of
sounds. We then formulate the four tasks into one end-to-end trainable
multi-tasking network aiming to boost the overall performance. Experimental
results show that 1) our method achieves good results for all four tasks, 2)
the four tasks are mutually beneficial -- training them together achieves the
best performance, 3) the number and orientation of microphones are both
important, and 4) features learned from the standard spectrogram and features
obtained by the classic signal processing pipeline are complementary for
auditory perception tasks. The data and code are released.
- Abstract(参考訳): 人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを強く認識し、ローカライズすることができる。
機械は、すでに視覚データで同じことができるが、音で行う作業は少ない。
本研究は,バイノーラル音に基づくシーン理解手法の開発である。
検討された課題は、音生成対象のセマンティックマスクの予測、音生成対象の動作、シーンの深さマップなどである。
そこで本研究では,8つのプロ用バイノーラルマイクと360度カメラを備えた,新たな視覚的ストリートシーンデータセットを提案する。
視覚と音声の手がかりの共存は監督の伝達に利用される。
特に,複数の視覚教師法と音響学生法から構成されるクロスモーダル蒸留フレームワークを用いて,教師法と同じ結果を生み出すように学生法を訓練した。
このように、人間のアノテーションを使わずに聴覚システムを訓練することができる。
音の方向分解能を高めるために,空間音響超解法(Spatial Sound Super-Resolution)という新しい補助課題を提案する。
次に、4つのタスクをエンドツーエンドのトレーニング可能なマルチタスクネットワークに定式化し、全体的なパフォーマンス向上を目指しています。
実験の結果,(1)4つのタスクすべてにおいて良好な結果が得られること,(2)4つのタスクが相互に有益であること,(3)マイクロホンの数と向きがともに重要であること,4)標準スペクトログラムから得られた特徴と古典的な信号処理パイプラインによって得られた特徴が聴覚知覚タスクに相補的であること,などが示されている。
データとコードはリリースされます。
関連論文リスト
- Audio Representation Learning by Distilling Video as Privileged
Information [25.71206255965502]
本稿では,音声・視覚データを用いた深層音声表現学習のための新しい手法を提案する。
我々は、特権情報(LUPI)を用いた学習の枠組みの下で、教師による知識蒸留を採用する。
LUPIを用いた先行研究と同様に、単独の音声認識よりも大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-02-06T15:09:34Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation [52.550684208734324]
音物体の視覚的接地と音声-視覚的音分離を共同学習できる循環的共学習パラダイムを提案する。
本稿では,提案フレームワークが両タスクの最近のアプローチを上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-05T17:30:41Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。