論文の概要: Better Intermediates Improve CTC Inference
- arxiv url: http://arxiv.org/abs/2204.00176v1
- Date: Fri, 1 Apr 2022 02:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:33:36.754966
- Title: Better Intermediates Improve CTC Inference
- Title(参考訳): CTC推論を改善する中間体
- Authors: Tatsuya Komatsu, Yusuke Fujita, Jaesong Lee, Lukas Lee, Shinji
Watanabe, Yusuke Kida
- Abstract要約: 本稿はまず,中間予測を潜在表現として,自己条件付きCTCを確率モデルとして定式化する。
次に、新しい定式化に基づく2つの新しい条件付け手法を提案する。
LibriSpeechデータセットによる実験では、オリジナルの自己条件のCTCと比較して、テストクリーン/他のセットの最大で3%/12%のパフォーマンス改善が見られた。
- 参考スコア(独自算出の注目度): 37.68950144012098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a method for improved CTC inference with searched
intermediates and multi-pass conditioning. The paper first formulates
self-conditioned CTC as a probabilistic model with an intermediate prediction
as a latent representation and provides a tractable conditioning framework. We
then propose two new conditioning methods based on the new formulation: (1)
Searched intermediate conditioning that refines intermediate predictions with
beam-search, (2) Multi-pass conditioning that uses predictions of previous
inference for conditioning the next inference. These new approaches enable
better conditioning than the original self-conditioned CTC during inference and
improve the final performance. Experiments with the LibriSpeech dataset show
relative 3%/12% performance improvement at the maximum in test clean/other sets
compared to the original self-conditioned CTC.
- Abstract(参考訳): 本稿では,検索中間子とマルチパス条件付きCTC推論の改良手法を提案する。
本稿では、まず、中間予測を潜在表現として確率モデルとして自己条件CTCを定式化し、トラクタブルコンディショニングフレームワークを提供する。
次に,新しい定式化に基づく2つの新しい条件付け手法を提案する。(1)ビームサーチによる中間予測を洗練させる検索中間条件付け,(2)先行推論の予測を次の推論に使用するマルチパス条件付け。
これらの新しいアプローチにより、推論中のオリジナルの自己条件CTCよりもより良い条件付けが可能になり、最終的な性能が向上する。
librispeechデータセットを用いた実験では、元のセルフコンディショニングctcと比較して、テストクリーン/その他セットの最大性能が3%/12%向上した。
関連論文リスト
- Conformal Risk Minimization with Variance Reduction [37.74931189657469]
コンフォーマル予測(CP)は、ブラックボックスモデルにおける確率的保証を達成するための分布自由フレームワークである。
最近の研究は、トレーニング中のCP効率の最適化に重点を置いている。
我々は、この概念を共形リスク最小化の問題として定式化する。
論文 参考訳(メタデータ) (2024-11-03T21:48:15Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Hyperparameters in Continual Learning: A Reality Check [53.30082523545212]
連続学習(CL)は、可塑性(新しいタスクを学ぶ)と安定性(事前知識を保持する)のトレードオフをバランスしながら、一連のタスクでモデルを訓練することを目的としている。
CLアルゴリズムの従来の評価プロトコルは、与えられたシナリオで最適なハイパーパラメータを選択し、同じシナリオでアルゴリズムを評価する。
このプロトコルには大きな欠点があり、アルゴリズムのCL能力を過大評価し、非現実的なハイパーパラメータチューニングに依存している。
CLアルゴリズムの評価は,予測できないシナリオに対するCL能力の一般化性を評価することに集中すべきである,と我々は主張する。
論文 参考訳(メタデータ) (2024-03-14T03:13:01Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - Improving CTC-based ASR Models with Gated Interlayer Collaboration [9.930655347717932]
本稿では,モデルにコンテキスト情報を導入するGated Interlayer Collaboration機構を提案する。
我々は,中間層の確率分布がソフトラベル配列として自然に機能するモデルの層間出力によって計算された中間CTC損失でモデルを訓練する。
論文 参考訳(メタデータ) (2022-05-25T03:21:27Z) - InterAug: Augmenting Noisy Intermediate Predictions for CTC-based ASR [17.967459632339374]
コンディショニングのための拡張中間表現を用いたCTCベースのASRのための新しいトレーニング手法であるInterAugを提案する。
提案手法は、自己条件付きCTCの条件付けフレームワークを利用して、「ノイズ」中間予測を条件付けして頑健なモデルを訓練する。
削除,挿入,置換誤差をシミュレートした拡張実験において,訓練されたモデルが各誤差に対して堅牢性を得ることを確認した。
論文 参考訳(メタデータ) (2022-04-01T02:51:21Z) - Adaptive Affinity Loss and Erroneous Pseudo-Label Refinement for Weakly
Supervised Semantic Segmentation [48.294903659573585]
本稿では,多段階アプローチの親和性学習を単一段階モデルに組み込むことを提案する。
深層ニューラルネットワークは、トレーニングフェーズで包括的なセマンティック情報を提供するために使用される。
提案手法の有効性を評価するため,PASCAL VOC 2012データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-08-03T07:48:33Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。