論文の概要: Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds
- arxiv url: http://arxiv.org/abs/2003.04210v1
- Date: Mon, 9 Mar 2020 15:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:38:10.114917
- Title: Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds
- Title(参考訳): バイノーラル音による意味的物体予測と空間音響超解法
- Authors: Arun Balajee Vasudevan, Dengxin Dai, Luc Van Gool
- Abstract要約: 人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
- 参考スコア(独自算出の注目度): 106.87299276189458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can robustly recognize and localize objects by integrating visual and
auditory cues. While machines are able to do the same now with images, less
work has been done with sounds. This work develops an approach for dense
semantic labelling of sound-making objects, purely based on binaural sounds. We
propose a novel sensor setup and record a new audio-visual dataset of street
scenes with eight professional binaural microphones and a 360 degree camera.
The co-existence of visual and audio cues is leveraged for supervision
transfer. In particular, we employ a cross-modal distillation framework that
consists of a vision `teacher' method and a sound `student' method -- the
student method is trained to generate the same results as the teacher method.
This way, the auditory system can be trained without using human annotations.
We also propose two auxiliary tasks namely, a) a novel task on Spatial Sound
Super-resolution to increase the spatial resolution of sounds, and b) dense
depth prediction of the scene. We then formulate the three tasks into one
end-to-end trainable multi-tasking network aiming to boost the overall
performance. Experimental results on the dataset show that 1) our method
achieves promising results for semantic prediction and the two auxiliary tasks;
and 2) the three tasks are mutually beneficial -- training them together
achieves the best performance and 3) the number and orientations of microphones
are both important. The data and code will be released to facilitate the
research in this new direction.
- Abstract(参考訳): 視覚と聴覚の統合によって、人間はオブジェクトを堅牢に認識し、ローカライズすることができる。
機械は今、画像で同じことをできるが、音声による作業は少ない。
本研究は、純粋にバイノーラル音に基づく、音生成対象の密接な意味的ラベリングへのアプローチを展開する。
本研究では,8つのプロ用バイノーラルマイクと360度カメラを備えた,新たな音響・視覚的ストリートシーンデータセットを提案する。
視覚と音声の手がかりの共存は監督の伝達に利用される。
特に,教師方式と同じ結果を生成するために,教師方式と教師方式の「教師」方式と「学生」方式を組み合わせたクロスモーダル蒸留フレームワークを用いる。
このように、人間のアノテーションを使わずに聴覚システムを訓練することができる。
また,2つの補助的タスクを提案する。
イ 空間音の空間分解能を高めるための空間音の超分解能に関する新しい課題
b)シーンの深い深さの予測。
次に、3つのタスクをエンドツーエンドのトレーニング可能なマルチタスクネットワークに定式化し、全体的なパフォーマンス向上を目指しています。
データセットの実験結果からは
1)本手法は,有望な意味予測と2つの補助課題を実現する。
2) 3つのタスクは相互に有益である。
3) マイクロホンの数と向きはともに重要である。
データとコードがリリースされ、この新たな方向性の研究が促進される。
関連論文リスト
- Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Audio Representation Learning by Distilling Video as Privileged
Information [25.71206255965502]
本稿では,音声・視覚データを用いた深層音声表現学習のための新しい手法を提案する。
我々は、特権情報(LUPI)を用いた学習の枠組みの下で、教師による知識蒸留を採用する。
LUPIを用いた先行研究と同様に、単独の音声認識よりも大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-02-06T15:09:34Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation [52.550684208734324]
音物体の視覚的接地と音声-視覚的音分離を共同学習できる循環的共学習パラダイムを提案する。
本稿では,提案フレームワークが両タスクの最近のアプローチを上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-05T17:30:41Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。