論文の概要: Deep Sensory Substitution: Noninvasively Enabling Biological Neural
Networks to Receive Input from Artificial Neural Networks
- arxiv url: http://arxiv.org/abs/2005.13291v3
- Date: Wed, 25 Aug 2021 23:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 08:02:20.051898
- Title: Deep Sensory Substitution: Noninvasively Enabling Biological Neural
Networks to Receive Input from Artificial Neural Networks
- Title(参考訳): Deep Sensory Substitution: ニューラルネットワークから入力を受け取るために生物学的ニューラルネットワークを非侵襲的に導入する
- Authors: Andrew Port, Chelhwon Kim, Mitesh Patel
- Abstract要約: 本研究は,視覚情報を知覚音声領域に音化するために,機械学習機能埋め込みを活用する新しい手法について述べる。
次に、生成逆数ネットワーク(GAN)を用いて、特徴ベクトルのこの距離空間からターゲットオーディオデータセットで定義された距離保存マップを求める。
人間の被験者によるテストでは、ユーザーは顔の音声音化を正確に分類することができた。
- 参考スコア(独自算出の注目度): 5.478764356647437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As is expressed in the adage "a picture is worth a thousand words", when
using spoken language to communicate visual information, brevity can be a
challenge. This work describes a novel technique for leveraging machine-learned
feature embeddings to sonify visual (and other types of) information into a
perceptual audio domain, allowing users to perceive this information using only
their aural faculty. The system uses a pretrained image embedding network to
extract visual features and embed them in a compact subset of Euclidean space
-- this converts the images into feature vectors whose $L^2$ distances can be
used as a meaningful measure of similarity. A generative adversarial network
(GAN) is then used to find a distance preserving map from this metric space of
feature vectors into the metric space defined by a target audio dataset
equipped with either the Euclidean metric or a mel-frequency cepstrum-based
psychoacoustic distance metric. We demonstrate this technique by sonifying
images of faces into human speech-like audio. For both target audio metrics,
the GAN successfully found a metric preserving mapping, and in human subject
tests, users were able to accurately classify audio sonifications of faces.
- Abstract(参考訳): 視覚情報を伝えるために音声言語を使う場合、「絵は千語に値する」という格言で表されるように、簡潔さは困難である。
本研究は、視覚(および他の種類の)情報を知覚的音声領域にソナライズするために、機械に学習された特徴埋め込みを利用する新しい手法について述べる。
このシステムは、事前訓練された画像埋め込みネットワークを使用して、視覚的な特徴を抽出し、ユークリッド空間のコンパクトな部分集合に埋め込む。
次に、生成逆数ネットワーク(GAN)を用いて、この特徴ベクトルの計量空間からユークリッド計量またはメル周波数ケプストラムベースの精神音響距離計量を備えたターゲットオーディオデータセットによって定義される計量空間に距離保存マップを求める。
人間の音声に顔の映像を音化することで,この手法を実証する。
両方の対象の音響指標について、GANはメートル法保存マッピングの発見に成功し、人間の被験者テストでは、ユーザーは顔の音声音化を正確に分類することができた。
関連論文リスト
- Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Self-supervised Neural Audio-Visual Sound Source Localization via
Probabilistic Spatial Modeling [45.20508569656558]
本稿では,360deg画像とマルチチャンネル音声信号を用いた自己教師型トレーニング手法を提案する。
マルチチャンネル音声信号に空間情報を組み込むことで、ディープニューラルネットワーク(DNN)を訓練し、複数の音源を識別する。
また、DNNは、科学博物館で記録された実際のデータから、会話客や特定の展示物を含む物体を検出した。
論文 参考訳(メタデータ) (2020-07-28T03:52:53Z) - Face-to-Music Translation Using a Distance-Preserving Generative
Adversarial Network with an Auxiliary Discriminator [5.478764356647437]
本稿では,人間の顔の画像を音声領域に翻訳するための距離保存型生成逆変換モデルを提案する。
オーディオドメインは、10の異なる楽器ファミリーによって記録された音符の集合によって定義される。
距離保存を実施するために、顔の対距離と翻訳された音声サンプルとの差を罰する損失項を用いる。
論文 参考訳(メタデータ) (2020-06-24T04:17:40Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。