Fugu-MT 論文翻訳(概要): Toward Interactive Dictation

論文の概要: Toward Interactive Dictation

arxiv url: http://arxiv.org/abs/2307.04008v1
Date: Sat, 8 Jul 2023 16:30:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 16:09:32.090797
Title: Toward Interactive Dictation
Title（参考訳）: インタラクティブなディクテーションを目指して
Authors: Belinda Z. Li, Jason Eisner, Adam Pauls, Sam Thomson
Abstract要約: 本研究では,オープンエンド自然言語における音声編集コマンドを用いて,ユーザの判断を中断できる可能性について検討する。この柔軟性をリアルタイムでサポートするには、システムは音声のスパンをディクテーションまたはコマンドとして段階的に分類し、コマンドであるスパンを解釈する必要がある。より小さなモデルは1.3秒のレイテンシで30%のエンドステート精度を達成し、大きなモデルは55%のエンドステート精度を7秒のレイテンシで達成する。
参考スコア（独自算出の注目度）: 27.67813195022947
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Voice dictation is an increasingly important text input modality. Existing systems that allow both dictation and editing-by-voice restrict their command language to flat templates invoked by trigger words. In this work, we study the feasibility of allowing users to interrupt their dictation with spoken editing commands in open-ended natural language. We introduce a new task and dataset, TERTiUS, to experiment with such systems. To support this flexibility in real-time, a system must incrementally segment and classify spans of speech as either dictation or command, and interpret the spans that are commands. We experiment with using large pre-trained language models to predict the edited text, or alternatively, to predict a small text-editing program. Experiments show a natural trade-off between model accuracy and latency: a smaller model achieves 30% end-state accuracy with 1.3 seconds of latency, while a larger model achieves 55% end-state accuracy with 7 seconds of latency.
Abstract（参考訳）: 音声ディクテーションは、ますます重要なテキスト入力モダリティである。既存のシステムでは、コマンド言語をトリガーワードによって起動されるフラットテンプレートに制限している。本研究では,オープンエンド自然言語における音声編集コマンドを用いて,ユーザの判断を中断できる可能性について検討する。このようなシステムを試すために,新しいタスクとデータセット TERTiUS を導入する。この柔軟性をリアルタイムでサポートするには、システムは音声のスパンをディクテーションまたはコマンドとして段階的に分類し、コマンドであるスパンを解釈する必要がある。我々は、大規模な事前学習言語モデルを用いて、編集されたテキストを予測するか、あるいは小さなテキスト編集プログラムを予測する。より小さなモデルは1.3秒のレイテンシで30%のエンドステート精度を達成し、大きなモデルは55%のエンドステート精度を7秒のレイテンシで達成する。

関連論文リスト

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文参考訳（メタデータ） (2024-11-26T17:19:09Z)
Temporal Validity Change Prediction [20.108317515225504]
既存のベンチマークタスクは、1つのステートメントの時間的妥当性を識別するモデルを必要とする。多くの場合、利用可能なテキストストリームから、ストーリー中の文やソーシャルメディアプロファイル上の投稿などの追加の文脈情報を集めることができる。本稿では,このような変化を誘発する文脈文を検出する機械学習モデルの能力をベンチマークした自然言語処理タスクである時間的妥当性変化予測を提案する。
論文参考訳（メタデータ） (2024-01-01T14:58:53Z)
Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文参考訳（メタデータ） (2023-06-06T10:18:17Z)
Finstreder: Simple and fast Spoken Language Understanding with Finite State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文参考訳（メタデータ） (2022-06-29T12:49:53Z)
Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。 3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2022-06-05T10:50:34Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)
Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文参考訳（メタデータ） (2021-07-12T17:40:43Z)
Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文参考訳（メタデータ） (2021-06-15T18:03:48Z)
What shall we do with an hour of data? Speech recognition for the un- and under-served languages of Common Voice [0.20774268785384567]
本報告では,共通音声プロジェクトの31言語を対象に,デプロイ可能な音声認識モデルを作成するための3週間のスプリントの方法と結果について述べる。
論文参考訳（メタデータ） (2021-05-10T21:16:28Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。