論文の概要: Toward Interactive Dictation
- arxiv url: http://arxiv.org/abs/2307.04008v1
- Date: Sat, 8 Jul 2023 16:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 16:09:32.090797
- Title: Toward Interactive Dictation
- Title(参考訳): インタラクティブなディクテーションを目指して
- Authors: Belinda Z. Li, Jason Eisner, Adam Pauls, Sam Thomson
- Abstract要約: 本研究では,オープンエンド自然言語における音声編集コマンドを用いて,ユーザの判断を中断できる可能性について検討する。
この柔軟性をリアルタイムでサポートするには、システムは音声のスパンをディクテーションまたはコマンドとして段階的に分類し、コマンドであるスパンを解釈する必要がある。
より小さなモデルは1.3秒のレイテンシで30%のエンドステート精度を達成し、大きなモデルは55%のエンドステート精度を7秒のレイテンシで達成する。
- 参考スコア(独自算出の注目度): 27.67813195022947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice dictation is an increasingly important text input modality. Existing
systems that allow both dictation and editing-by-voice restrict their command
language to flat templates invoked by trigger words. In this work, we study the
feasibility of allowing users to interrupt their dictation with spoken editing
commands in open-ended natural language. We introduce a new task and dataset,
TERTiUS, to experiment with such systems. To support this flexibility in
real-time, a system must incrementally segment and classify spans of speech as
either dictation or command, and interpret the spans that are commands. We
experiment with using large pre-trained language models to predict the edited
text, or alternatively, to predict a small text-editing program. Experiments
show a natural trade-off between model accuracy and latency: a smaller model
achieves 30% end-state accuracy with 1.3 seconds of latency, while a larger
model achieves 55% end-state accuracy with 7 seconds of latency.
- Abstract(参考訳): 音声ディクテーションは、ますます重要なテキスト入力モダリティである。
既存のシステムでは、コマンド言語をトリガーワードによって起動されるフラットテンプレートに制限している。
本研究では,オープンエンド自然言語における音声編集コマンドを用いて,ユーザの判断を中断できる可能性について検討する。
このようなシステムを試すために,新しいタスクとデータセット TERTiUS を導入する。
この柔軟性をリアルタイムでサポートするには、システムは音声のスパンをディクテーションまたはコマンドとして段階的に分類し、コマンドであるスパンを解釈する必要がある。
我々は、大規模な事前学習言語モデルを用いて、編集されたテキストを予測するか、あるいは小さなテキスト編集プログラムを予測する。
より小さなモデルは1.3秒のレイテンシで30%のエンドステート精度を達成し、大きなモデルは55%のエンドステート精度を7秒のレイテンシで達成する。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Temporal Validity Change Prediction [20.108317515225504]
既存のベンチマークタスクは、1つのステートメントの時間的妥当性を識別するモデルを必要とする。
多くの場合、利用可能なテキストストリームから、ストーリー中の文やソーシャルメディアプロファイル上の投稿などの追加の文脈情報を集めることができる。
本稿では,このような変化を誘発する文脈文を検出する機械学習モデルの能力をベンチマークした自然言語処理タスクである時間的妥当性変化予測を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:58:53Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - What shall we do with an hour of data? Speech recognition for the un-
and under-served languages of Common Voice [0.20774268785384567]
本報告では,共通音声プロジェクトの31言語を対象に,デプロイ可能な音声認識モデルを作成するための3週間のスプリントの方法と結果について述べる。
論文 参考訳(メタデータ) (2021-05-10T21:16:28Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。