論文の概要: AudioViewer: Learning to Visualize Sound
- arxiv url: http://arxiv.org/abs/2012.13341v3
- Date: Thu, 11 Mar 2021 19:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:35:00.155613
- Title: AudioViewer: Learning to Visualize Sound
- Title(参考訳): AudioViewer: 音の可視化を学ぶ
- Authors: Yuchi Zhang, Willis Peng, Bastian Wandt and Helge Rhodin
- Abstract要約: 聴覚障害者のための聴覚知覚を創造し,聴覚障害者の学習におけるフィードバックの促進を図る。
音声から映像への変換は,共用構造を持つ共用ラテント空間に圧縮することで行う。
- 参考スコア(独自算出の注目度): 12.71759722609666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sensory substitution can help persons with perceptual deficits. In this work,
we attempt to visualize audio with video. Our long-term goal is to create sound
perception for hearing impaired people, for instance, to facilitate feedback
for training deaf speech. Different from existing models that translate between
speech and text or text and images, we target an immediate and low-level
translation that applies to generic environment sounds and human speech without
delay. No canonical mapping is known for this artificial translation task. Our
design is to translate from audio to video by compressing both into a common
latent space with shared structure. Our core contribution is the development
and evaluation of learned mappings that respect human perception limits and
maximize user comfort by enforcing priors and combining strategies from
unpaired image translation and disentanglement. We demonstrate qualitatively
and quantitatively that our AudioViewer model maintains important audio
features in the generated video and that generated videos of faces and numbers
are well suited for visualizing high-dimensional audio features since they can
easily be parsed by humans to match and distinguish between sounds, words, and
speakers.
- Abstract(参考訳): 感覚の置換は知覚障害を持つ人に役立つ。
本研究では,映像による音声の可視化を試みる。
私たちの長期的な目標は、例えば聴覚障害者のための音知覚を作り、聴覚障害者の訓練のためのフィードバックを促進させることです。
音声・テキスト・テキスト・画像間で翻訳される既存のモデルとは違って,一般的な環境音や人間の発話に遅延のない即時かつ低レベルな翻訳をターゲットとしている。
この人工翻訳作業では標準写像は知られていない。
音声から映像への変換は,共用構造を持つ共用ラテント空間に圧縮することで行う。
我々の中心となる貢献は,人間の知覚の限界を尊重し,ユーザの快適さを最大化する学習マッピングの開発と評価である。
我々は,音声ビューアモデルが生成する映像において重要な音声特徴を維持していることを質的かつ定量的に示すとともに,顔や数字の映像が高次元の音声特徴を可視化するのに適していることを示す。
関連論文リスト
- Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。