論文の概要: "Notic My Speech" -- Blending Speech Patterns With Multimedia
- arxiv url: http://arxiv.org/abs/2006.08599v1
- Date: Fri, 12 Jun 2020 06:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 04:36:43.683228
- Title: "Notic My Speech" -- Blending Speech Patterns With Multimedia
- Title(参考訳): Notic My Speech" - マルチメディアによる音声パターンのブレンディング
- Authors: Dhruva Sahrawat, Yaman Kumar, Shashwat Aggarwal, Yifang Yin, Rajiv
Ratn Shah and Roger Zimmermann
- Abstract要約: 音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
- 参考スコア(独自算出の注目度): 65.91370924641862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech as a natural signal is composed of three parts - visemes (visual part
of speech), phonemes (spoken part of speech), and language (the imposed
structure). However, video as a medium for the delivery of speech and a
multimedia construct has mostly ignored the cognitive aspects of speech
delivery. For example, video applications like transcoding and compression have
till now ignored the fact how speech is delivered and heard. To close the gap
between speech understanding and multimedia video applications, in this paper,
we show the initial experiments by modelling the perception on visual speech
and showing its use case on video compression. On the other hand, in the visual
speech recognition domain, existing studies have mostly modeled it as a
classification problem, while ignoring the correlations between views,
phonemes, visemes, and speech perception. This results in solutions which are
further away from how human perception works. To bridge this gap, we propose a
view-temporal attention mechanism to model both the view dependence and the
visemic importance in speech recognition and understanding. We conduct
experiments on three public visual speech recognition datasets. The
experimental results show that our proposed method outperformed the existing
work by 4.99% in terms of the viseme error rate. Moreover, we show that there
is a strong correlation between our model's understanding of multi-view speech
and the human perception. This characteristic benefits downstream applications
such as video compression and streaming where a significant number of less
important frames can be compressed or eliminated while being able to maximally
preserve human speech understanding with good user experience.
- Abstract(参考訳): 自然信号としての音声は、ビセム(音声の視覚的部分)、音素(音声の発声部分)、言語(強制構造)の3つの部分から構成される。
しかし,音声配信メディアとしての映像とマルチメディア構成は,音声配信の認知的側面をほとんど無視している。
例えば、トランスコーディングや圧縮といったビデオアプリケーションは、これまで音声の配信や聞き取りの事実を無視してきた。
本稿では,音声理解とマルチメディアビデオのギャップを埋めるために,視覚音声の知覚をモデル化し,その使用事例をビデオ圧縮で示す実験を行った。
一方、視覚音声認識領域では、既存の研究はほとんどが分類問題としてモデル化されているが、ビュー、音素、ビセム、および音声知覚の相関は無視されている。
この結果、人間の知覚の仕組みからさらに遠ざかる解決策が生まれる。
このギャップを埋めるため,音声認識と理解において,視点依存と視覚重要度の両方をモデル化する視点-時間的注意機構を提案する。
我々は3つの公開視覚音声認識データセットの実験を行った。
実験の結果,提案手法はビセム誤差率において既存手法よりも4.99%優れていた。
さらに,多視点音声の理解と人間の知覚との間には,強い相関関係があることを示した。
この特徴は、ビデオ圧縮やストリーミングのような下流のアプリケーションで、重要でないフレームの多くを圧縮したり取り除いたりできるが、優れたユーザー体験で人間の音声理解を最大限に保てるという利点がある。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - AudioViewer: Learning to Visualize Sound [12.71759722609666]
聴覚障害者のための聴覚知覚を創造し,聴覚障害者の学習におけるフィードバックの促進を図る。
音声から映像への変換は,共用構造を持つ共用ラテント空間に圧縮することで行う。
論文 参考訳(メタデータ) (2020-12-22T21:52:45Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。