論文の概要: Interactive decoding of words from visual speech recognition models
- arxiv url: http://arxiv.org/abs/2107.00692v1
- Date: Thu, 1 Jul 2021 18:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:55:23.093419
- Title: Interactive decoding of words from visual speech recognition models
- Title(参考訳): 視覚音声認識モデルからの単語の対話的復号
- Authors: Brendan Shillingford, Yannis Assael, Misha Denil
- Abstract要約: 本手法は,各単語位置における対話点の挿入を容易にするため,単語をロックステップで拡張する。
オラクルを用いたユーザ入力の動作をシミュレートし、自動評価を行い、本手法をテキスト入力に用いることを約束する。
- 参考スコア(独自算出の注目度): 5.769899882272548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work describes an interactive decoding method to improve the performance
of visual speech recognition systems using user input to compensate for the
inherent ambiguity of the task. Unlike most phoneme-to-word decoding pipelines,
which produce phonemes and feed these through a finite state transducer, our
method instead expands words in lockstep, facilitating the insertion of
interaction points at each word position. Interaction points enable us to
solicit input during decoding, allowing users to interactively direct the
decoding process. We simulate the behavior of user input using an oracle to
give an automated evaluation, and show promise for the use of this method for
text input.
- Abstract(参考訳): 本研究は,タスク固有のあいまいさを補償するユーザ入力を用いた視覚音声認識システムの性能向上のための対話型復号法について述べる。
音素を生成し,それを有限状態トランスデューサで供給するほとんどの音素対単語復号パイプラインとは異なり,本手法では単語をロックステップで拡張し,各単語位置での対話点の挿入を容易にする。
インタラクションポイントは、デコード中に入力を要求できるので、ユーザはデコードプロセスをインタラクティブに指示することができる。
我々は,オラクルを用いてユーザ入力の動作をシミュレートし,自動評価を行い,テキスト入力にこの手法を使用することを約束する。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning [6.363223418619587]
本研究では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。
本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。
論文 参考訳(メタデータ) (2024-08-12T10:21:09Z) - Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Gujarati-English Code-Switching Speech Recognition using ensemble
prediction of spoken language [29.058108207186816]
マルチヘッドアテンション機構において,言語固有のパラメータと説明可能性を導入する2つの手法を提案する。
WERを著しく削減できないにもかかわらず、本手法は音声データから正しい言語を予測することを約束している。
論文 参考訳(メタデータ) (2024-03-12T18:21:20Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - VScript: Controllable Script Generation with Audio-Visual Presentation [56.17400243061659]
VScriptは、対話やシーン記述を含む完全なスクリプトを生成するコントロール可能なパイプラインである。
我々は階層構造を採用し、プロットを生成し、次にスクリプトとその音声視覚提示を行う。
実験の結果,本手法は,自動評価と人的評価の両方において,ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-01T09:43:02Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Action State Update Approach to Dialogue Management [16.602804535683553]
本稿では,発話解釈のための行動状態更新手法(ASU)を提案する。
我々のゴールは、ドメイン固有の自然言語理解コンポーネントを使わずに、ユーザ入力における参照表現を解釈することである。
ユーザシミュレーションと対話型評価の両方により,ASUアプローチは対話システムにおけるユーザの発話の解釈に成功していることを示す。
論文 参考訳(メタデータ) (2020-11-09T18:49:41Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。