論文の概要: Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection
- arxiv url: http://arxiv.org/abs/2205.00620v1
- Date: Mon, 2 May 2022 02:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 00:27:41.369093
- Title: Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection
- Title(参考訳): BERTに待機を教える: ストリーミングの周波数検出における精度とレイテンシのバランスをとる
- Authors: Angelica Chen, Vicky Zayats, Daniel D. Walker, Dirk Padfield
- Abstract要約: BERTをベースとしたシーケンスタギングモデルは,リアルタイムに分散を検出することができる。
モデルは、インクリメンタルな拡散検出に関する最近の研究と比較して、最先端のレイテンシと安定性のスコアを得る。
- 参考スコア(独自算出の注目度): 3.884530687475798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern interactive speech-based systems, speech is consumed and
transcribed incrementally prior to having disfluencies removed. This
post-processing step is crucial for producing clean transcripts and high
performance on downstream tasks (e.g. machine translation). However, most
current state-of-the-art NLP models such as the Transformer operate
non-incrementally, potentially causing unacceptable delays. We propose a
streaming BERT-based sequence tagging model that, combined with a novel
training objective, is capable of detecting disfluencies in real-time while
balancing accuracy and latency. This is accomplished by training the model to
decide whether to immediately output a prediction for the current input or to
wait for further context. Essentially, the model learns to dynamically size its
lookahead window. Our results demonstrate that our model produces comparably
accurate predictions and does so sooner than our baselines, with lower flicker.
Furthermore, the model attains state-of-the-art latency and stability scores
when compared with recent work on incremental disfluency detection.
- Abstract(参考訳): 現代の対話型音声システムでは、不純物を取り除く前に音声を消費し、漸進的に書き起こされる。
この後処理ステップは、クリーンな書き起こしと下流タスク(例えば機械翻訳)の高性能化に不可欠である。
しかし、Transformerのような現在の最先端のNLPモデルは非インクリメンタルに動作し、許容できない遅延を引き起こす可能性がある。
本稿では,新たなトレーニング目標と組み合わさって,精度とレイテンシのバランスを保ちながら,リアルタイムの分散を検出できるストリーミングBERTベースのシーケンスタグモデルを提案する。
これはモデルをトレーニングして、現在の入力の予測を直ちに出力するか、あるいはさらなるコンテキストを待つかを判断することで実現される。
基本的に、モデルはルックアヘッドウィンドウを動的にサイズすることを学ぶ。
以上の結果から,我々のモデルでは,比較的正確な予測が得られ,フリック率の低いベースラインよりも早い結果が得られた。
さらに, インクリメンタル・ディフルエンシー検出における最近の作業と比較して, 最先端のレイテンシと安定性スコアを得ることができた。
関連論文リスト
- Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Disfluency Detection with Unlabeled Data and Small BERT Models [3.04133054437883]
本稿では,BERTアーキテクチャに基づく小型・高速・オンデバイスモデルに焦点をあてて,ディフルエンシ検出タスクに着目する。
性能を保ちながら1.3 MiB程度の拡散検出モデルを訓練できることを実証する。
論文 参考訳(メタデータ) (2021-04-21T21:24:32Z) - Language Models not just for Pre-training: Fast Online Neural Noisy
Channel Modeling [35.43382144290393]
本稿では,ノイズチャネルアプローチによる推定を,強いアンサンブルの速さで行うための効率的な近似法を提案する。
また,WMTルーマニア語-英語翻訳における新たな手法の達成により,ノイズチャネルアプローチは,事前学習結果よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-13T23:22:28Z) - Controllable Time-Delay Transformer for Real-Time Punctuation Prediction
and Disfluency Detection [10.265607222257263]
本稿では,リアルタイムに句読影予測および拡散検出タスクを共同で完了する制御可能な時間遅延変換器(CT-Transformer)モデルを提案する。
提案手法は,従来のFスコアモデルよりも優れ,競合する推論速度を実現する。
論文 参考訳(メタデータ) (2020-03-03T03:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。