論文の概要: Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space
- arxiv url: http://arxiv.org/abs/2002.04076v1
- Date: Mon, 10 Feb 2020 20:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 09:47:55.566127
- Title: Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space
- Title(参考訳): ロボット応用のための音声知覚の教師なし学習:T-SNE/UMAP空間へのデータ投影学習
- Authors: Prateek Verma, Kenneth Salisbury
- Abstract要約: 本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
- 参考スコア(独自算出の注目度): 2.8935588665357077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio perception is a key to solving a variety of problems ranging from
acoustic scene analysis, music meta-data extraction, recommendation, synthesis
and analysis. It can potentially also augment computers in doing tasks that
humans do effortlessly in day-to-day activities. This paper builds upon key
ideas to build perception of touch sounds without access to any ground-truth
data. We show how we can leverage ideas from classical signal processing to get
large amounts of data of any sound of interest with a high precision. These
sounds are then used, along with the images to map the sounds to a clustered
space of the latent representation of these images. This approach, not only
allows us to learn semantic representation of the possible sounds of interest,
but also allows association of different modalities to the learned
distinctions. The model trained to map sounds to this clustered representation,
gives reasonable performance as opposed to expensive methods collecting a lot
of human annotated data. Such approaches can be used to build a state of art
perceptual model for any sound of interest described using a few signal
processing features. Daisy chaining high precision sound event detectors using
signal processing combined with neural architectures and high dimensional
clustering of unlabelled data is a vastly powerful idea, and can be explored in
a variety of ways in future.
- Abstract(参考訳): 音声知覚は、音響シーン分析、音楽メタデータ抽出、レコメンデーション、合成、分析など、様々な問題を解決する鍵となる。
また、日々の作業で人間が力ずくで行うタスクにおいて、コンピューターを増強することもできる。
本論文は,接地データにアクセスせずにタッチ音の知覚を構築するための重要なアイデアに基づいている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
これらの音は画像とともに使われ、これらの画像の潜在表現のクラスタ化された空間に音をマッピングする。
このアプローチは、興味のある音のセマンティックな表現を学習するだけでなく、学習された区別に異なるモダリティを関連付けることを可能にする。
音をこのクラスタ化された表現にマップするように訓練されたモデルは、多くの人間の注釈データを集める高価な方法とは対照的に、合理的なパフォーマンスを提供する。
このようなアプローチは、いくつかの信号処理機能を使って記述されたあらゆる興味ある音に対する芸術知覚モデルを構築するために使用できる。
信号処理とニューラルアーキテクチャを組み合わせた高精度な音響イベント検出器とラベルなしデータの高次元クラスタリングは、非常に強力なアイデアであり、将来は様々な方法で研究されるだろう。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Metric-based multimodal meta-learning for human movement identification
via footstep recognition [3.300376360949452]
マルチモーダル・フレームワークを導入した新しいメトリック・ベース・ラーニング・アプローチについて述べる。
我々は,全方位センサシステムから得られた低感度データから汎用表現を学習する。
本研究は,マルチセンサデータに対するメトリクスに基づくコントラスト学習手法を用いて,データ不足の影響を緩和する。
論文 参考訳(メタデータ) (2021-11-15T18:46:14Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Predicting Emotions Perceived from Sounds [2.9398911304923447]
音化とは、音を通してユーザとデータやイベントを通信する科学である。
本稿では、いくつかの主流および従来型の機械学習アルゴリズムを開発する実験を行う。
知覚された感情を高い精度で予測することが可能である。
論文 参考訳(メタデータ) (2020-12-04T15:01:59Z) - A Framework for Generative and Contrastive Learning of Audio
Representations [2.8935588665357077]
本研究では,音声表現のためのコントラスト学習フレームワークを提案する。
また、音声信号の潜在空間を学習するために、アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。
本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。
論文 参考訳(メタデータ) (2020-10-22T05:52:32Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。