論文の概要: Improved Long-Form Speech Recognition by Jointly Modeling the Primary
and Non-primary Speakers
- arxiv url: http://arxiv.org/abs/2312.11123v1
- Date: Mon, 18 Dec 2023 11:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:18:00.727807
- Title: Improved Long-Form Speech Recognition by Jointly Modeling the Primary
and Non-primary Speakers
- Title(参考訳): プライマリ話者と非プライマリ話者の協調モデルによる長文音声認識の改善
- Authors: Guru Prakash Arumugam, Shuo-yiin Chang, Tara N. Sainath, Rohit
Prabhavalkar, Quan Wang, Shaan Bijwadia
- Abstract要約: 音声中の異なる話者群と標準転写トークンを同時にモデル化する新しい手法を提案する。
話者はプライマリドメインと非プライマリドメインとしてグループ化され、アプリケーションドメインを接続する。
この改善されたモデルは、追加のトレーニングデータも追加のトレーニングや推論コストも必要としない。
- 参考スコア(独自算出の注目度): 35.32552447347255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ASR models often suffer from a long-form deletion problem where the model
predicts sequential blanks instead of words when transcribing a lengthy audio
(in the order of minutes or hours). From the perspective of a user or
downstream system consuming the ASR results, this behavior can be perceived as
the model "being stuck", and potentially make the product hard to use. One of
the culprits for long-form deletion is training-test data mismatch, which can
happen even when the model is trained on diverse and large-scale data collected
from multiple application domains. In this work, we introduce a novel technique
to simultaneously model different groups of speakers in the audio along with
the standard transcript tokens. Speakers are grouped as primary and
non-primary, which connects the application domains and significantly
alleviates the long-form deletion problem. This improved model neither needs
any additional training data nor incurs additional training or inference cost.
- Abstract(参考訳): ASRモデルは長い音声を(数分または数時間の順序で)翻訳する際に、単語の代わりに逐次空白を予測できる長文の削除問題に悩まされることが多い。
ASRの結果を消費するユーザや下流システムの観点からすると、この振る舞いはモデルが"立ち往生している"と見なされ、製品の使用を難しくする可能性がある。
これは、モデルが複数のアプリケーションドメインから収集された多種多様な大規模データに基づいてトレーニングされた場合でも起こり得る。
本稿では,音声中の異なる話者群と標準書き起こしトークンを同時にモデル化する新しい手法を提案する。
話者はプライマリおよび非プライマリとしてグループ化され、アプリケーションドメインを接続し、長い形式の削除問題を著しく軽減する。
この改善されたモデルは、追加のトレーニングデータや追加のトレーニングや推論コストを必要としない。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文 参考訳(メタデータ) (2024-06-08T12:58:13Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Incomplete Utterance Rewriting as Sequential Greedy Tagging [0.0]
モデル話者変動に対する話者認識埋め込みを導入する。
本モデルでは,従来の最先端モデルに匹敵する他のスコアを持つとともに,9つの復元スコアに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-07-08T04:05:04Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Detect Hate Speech in Unseen Domains using Multi-Task Learning: A Case
Study of Political Public Figures [7.52579126252489]
複数のヘイトスピーチデータセットを同時に学習するマルチタスク学習パイプラインを提案する。
列車-テスト分割における一般化誤差を調べる際には強い結果が得られ、以前に見つからなかったデータセットで予測する場合には大幅に改善される。
PubFigsと呼ばれる新しいデータセットも収集し、アメリカ公共政治図の問題点に焦点をあてた。
論文 参考訳(メタデータ) (2022-08-22T21:13:38Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。