論文の概要: Interactive decoding of words from visual speech recognition models
- arxiv url: http://arxiv.org/abs/2107.00692v1
- Date: Thu, 1 Jul 2021 18:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:55:23.093419
- Title: Interactive decoding of words from visual speech recognition models
- Title(参考訳): 視覚音声認識モデルからの単語の対話的復号
- Authors: Brendan Shillingford, Yannis Assael, Misha Denil
- Abstract要約: 本手法は,各単語位置における対話点の挿入を容易にするため,単語をロックステップで拡張する。
オラクルを用いたユーザ入力の動作をシミュレートし、自動評価を行い、本手法をテキスト入力に用いることを約束する。
- 参考スコア(独自算出の注目度): 5.769899882272548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work describes an interactive decoding method to improve the performance
of visual speech recognition systems using user input to compensate for the
inherent ambiguity of the task. Unlike most phoneme-to-word decoding pipelines,
which produce phonemes and feed these through a finite state transducer, our
method instead expands words in lockstep, facilitating the insertion of
interaction points at each word position. Interaction points enable us to
solicit input during decoding, allowing users to interactively direct the
decoding process. We simulate the behavior of user input using an oracle to
give an automated evaluation, and show promise for the use of this method for
text input.
- Abstract(参考訳): 本研究は,タスク固有のあいまいさを補償するユーザ入力を用いた視覚音声認識システムの性能向上のための対話型復号法について述べる。
音素を生成し,それを有限状態トランスデューサで供給するほとんどの音素対単語復号パイプラインとは異なり,本手法では単語をロックステップで拡張し,各単語位置での対話点の挿入を容易にする。
インタラクションポイントは、デコード中に入力を要求できるので、ユーザはデコードプロセスをインタラクティブに指示することができる。
我々は,オラクルを用いてユーザ入力の動作をシミュレートし,自動評価を行い,テキスト入力にこの手法を使用することを約束する。
関連論文リスト
- Bootstrapping Adaptive Human-Machine Interfaces with Offline
Reinforcement Learning [82.91837418721182]
適応インターフェイスは、ユーザがシーケンシャルな意思決定タスクを実行するのに役立つ。
近年のヒューマン・イン・ザ・ループ・機械学習の進歩により、ユーザとの対話によってこのようなシステムが改善されている。
本稿では,生のコマンド信号をアクションにマッピングするインタフェースを訓練するための強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-07T16:52:27Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。
TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文 参考訳(メタデータ) (2022-12-16T20:30:33Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - VScript: Controllable Script Generation with Audio-Visual Presentation [56.17400243061659]
VScriptは、対話やシーン記述を含む完全なスクリプトを生成するコントロール可能なパイプラインである。
我々は階層構造を採用し、プロットを生成し、次にスクリプトとその音声視覚提示を行う。
実験の結果,本手法は,自動評価と人的評価の両方において,ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-01T09:43:02Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Action State Update Approach to Dialogue Management [16.602804535683553]
本稿では,発話解釈のための行動状態更新手法(ASU)を提案する。
我々のゴールは、ドメイン固有の自然言語理解コンポーネントを使わずに、ユーザ入力における参照表現を解釈することである。
ユーザシミュレーションと対話型評価の両方により,ASUアプローチは対話システムにおけるユーザの発話の解釈に成功していることを示す。
論文 参考訳(メタデータ) (2020-11-09T18:49:41Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Convo: What does conversational programming need? An exploration of
machine learning interface design [8.831954614241232]
我々は、異なる入力方法と、開発した対話型プログラミングシステムを比較した。
参加者は、音声ベース、テキストベース、音声またはテキストベースのシステムを使用して、初心者および高度なタスクを完了した。
結果として、将来の対話型プログラミングツールは、ユーザのプログラミング体験に合わせて調整されるべきであることが示される。
論文 参考訳(メタデータ) (2020-03-03T03:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。