論文の概要: SGEM: Test-Time Adaptation for Automatic Speech Recognition via
Sequential-Level Generalized Entropy Minimization
- arxiv url: http://arxiv.org/abs/2306.01981v1
- Date: Sat, 3 Jun 2023 02:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 21:04:18.358877
- Title: SGEM: Test-Time Adaptation for Automatic Speech Recognition via
Sequential-Level Generalized Entropy Minimization
- Title(参考訳): SGEM:シーケンスレベル一般化エントロピー最小化による自動音声認識のためのテスト時間適応
- Authors: Changhun Kim, Joonhyung Park, Hajin Shim and Eunho Yang
- Abstract要約: テスト時間適応(TTA)法は、ソースデータなしで未ラベルのテストインスタンスに事前学習されたASRモデルを適用するために最近提案されている。
我々は、一般的なASRモデルに対して、SGEMと呼ばれる新しいTTAフレームワークを提案する。
SGEMは、ドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を達成する。
- 参考スコア(独自算出の注目度): 30.61075178799518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) models are frequently exposed to data
distribution shifts in many real-world scenarios, leading to erroneous
predictions. To tackle this issue, an existing test-time adaptation (TTA)
method has recently been proposed to adapt the pre-trained ASR model on
unlabeled test instances without source data. Despite decent performance gain,
this work relies solely on naive greedy decoding and performs adaptation across
timesteps at a frame level, which may not be optimal given the sequential
nature of the model output. Motivated by this, we propose a novel TTA
framework, dubbed SGEM, for general ASR models. To treat the sequential output,
SGEM first exploits beam search to explore candidate output logits and selects
the most plausible one. Then, it utilizes generalized entropy minimization and
negative sampling as unsupervised objectives to adapt the model. SGEM achieves
state-of-the-art performance for three mainstream ASR models under various
domain shifts.
- Abstract(参考訳): 自動音声認識(ASR)モデルは、多くの実世界のシナリオでデータ分散シフトに頻繁に晒され、誤った予測につながる。
この問題に対処するために、最近、ソースデータなしでラベルなしのテストインスタンスに事前学習されたasrモデルを適用するために、既存のテスト時間適応法(tta)が提案されている。
良好な性能向上にもかかわらず、本研究はナイーブな欲望復号にのみ依存し、モデル出力の逐次的性質を考えると最適ではないフレームレベルで時間ステップをまたいで適応する。
そこで我々は,一般的なASRモデルに対して,SGEMと呼ばれる新しいTTAフレームワークを提案する。
逐次出力を扱うために、SGEMはまずビームサーチを利用して候補出力ロジットを探索し、最も有効なものを選択する。
次に、一般化エントロピー最小化と負サンプリングを教師なしの目的とし、モデルを適応させる。
SGEMはドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を実現する。
関連論文リスト
- Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval Augmented Generation [13.120801609024147]
検索拡張生成(RAG)は,大規模言語モデル(LLM)出力の現実性を高めることが示されている。
RAG入力は、NLIモデルのトレーニングに使用されるほとんどのデータセットよりも複雑である。
教師なしドメイン適応を実現するために自動生成ドメイン適応(Auto-GDA)を導入する。
論文 参考訳(メタデータ) (2024-10-04T14:21:27Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - Point-TTA: Test-Time Adaptation for Point Cloud Registration Using
Multitask Meta-Auxiliary Learning [17.980649681325406]
我々は、ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAを提案する。
我々のモデルは、テストデータの事前の知識を必要とせずに、テスト時に目に見えない分布に適応することができる。
訓練中は, 補助タスクによる適応モデルにより主タスクの精度が向上するように, メタ補助学習アプローチを用いて訓練を行う。
論文 参考訳(メタデータ) (2023-08-31T06:32:11Z) - RDumb: A simple approach that questions our progress in continual test-time adaptation [12.374649969346441]
テスト時間適応(TTA)では、事前トレーニングされたモデルをデプロイ時にデータ配布を変更するように更新することができる。
近年の長期にわたる連続的適応手法の提案と適用方法が提案されている。
最終的には、最先端の1つのメソッド以外はすべて崩壊し、非適応モデルよりもパフォーマンスが悪くなることに気付きました。
論文 参考訳(メタデータ) (2023-06-08T17:52:34Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。