論文の概要: Investigating Zero-Shot Generalizability on Mandarin-English
Code-Switched ASR and Speech-to-text Translation of Recent Foundation Models
with Self-Supervision and Weak Supervision
- arxiv url: http://arxiv.org/abs/2401.00273v1
- Date: Sat, 30 Dec 2023 16:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:03:42.544715
- Title: Investigating Zero-Shot Generalizability on Mandarin-English
Code-Switched ASR and Speech-to-text Translation of Recent Foundation Models
with Self-Supervision and Weak Supervision
- Title(参考訳): マンダリン英語コードスイッチングASRにおけるゼロショット一般化可能性の検討と自己スーパービジョンと弱スーパービジョンを用いた最近の基礎モデルの音声-テキスト翻訳
- Authors: Chih-Kai Yang, Kuan-Po Huang, Ke-Han Lu, Chun-Yi Kuan, Chi-Yuan Hsiao,
Hung-yi Lee
- Abstract要約: 本研究は、SamlessM4T、SeamlessM4T v2、Whisper-large-v3など、自己監督または弱監督に基づく最先端の大規模基盤モデルを3つのコード変更コーパスで評価した。
自己教師付きモデルでは教師付きモデルに近い性能が得られ,多言語による自己教師付き事前学習の有効性が示唆された。
- 参考スコア(独自算出の注目度): 43.618735326885826
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work evaluated several cutting-edge large-scale foundation models based
on self-supervision or weak supervision, including SeamlessM4T, SeamlessM4T v2,
and Whisper-large-v3, on three code-switched corpora. We found that
self-supervised models can achieve performances close to the supervised model,
indicating the effectiveness of multilingual self-supervised pre-training. We
also observed that these models still have room for improvement as they kept
making similar mistakes and had unsatisfactory performances on modeling
intra-sentential code-switching. In addition, the validity of several variants
of Whisper was explored, and we concluded that they remained effective in a
code-switching scenario, and similar techniques for self-supervised models are
worth studying to boost the performance of code-switched tasks.
- Abstract(参考訳): 本研究は、SamlessM4T、SeamlessM4T v2、Whisper-large-v3など、自己監督または弱監督に基づく最先端の大規模基盤モデルの評価を行った。
自己教師付きモデルは教師付きモデルに近い性能を達成でき、多言語による自己教師付き事前学習の有効性を示す。
また,これらのモデルには相変わらず類似の誤りを犯し続け,文内コードスイッチングのモデル化に不満足な性能を示した。
さらに、Whisperのいくつかの変種の有効性について検討し、コードスイッチングシナリオにおいて効果を保ち、自己教師型モデルの同様の手法がコードスイッチングタスクの性能向上に有用であると結論付けた。
関連論文リスト
- Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。
入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。
複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Toward Open-domain Slot Filling via Self-supervised Co-training [2.7178968279054936]
スロットフィリングは現代の会話システムにおいて重要なタスクの1つである。
本研究では,SCotと呼ばれる自己教師付き協調学習フレームワークを提案する。
評価の結果,SCotはSGDおよびMultiWoZデータセットで45.57%,37.56%,最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-24T04:51:22Z) - Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。
我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文 参考訳(メタデータ) (2021-12-08T10:39:13Z) - Injecting Text and Cross-lingual Supervision in Few-shot Learning from
Self-Supervised Models [33.66135770490531]
新しい言語への自己教師付き表現の伝達を改善するために,音声集合音響モデルが言語間監督を活用する方法を示す。
また、格子フリーの最大相互情報目標を用いた微調整を実現するために、ターゲット言語テキストをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2021-10-10T17:33:44Z) - A Closer Look at the Robustness of Vision-and-Language Pre-trained
Models [42.13369297087191]
ViLBERTやUNITERのような大規模事前学習型マルチモーダルトランスフォーマーは、視覚言語(V+L)研究の最先端を新たなレベルへと押し上げた。
標準的なタスクで優れたパフォーマンスを達成することはできるが、これらの事前訓練されたモデルがどれほど堅牢かはいまだに不明である。
我々は,組込み空間におけるマルチモーダル適応雑音生成器を学習し,事前学習したV+Lモデルを騙す汎用的で効率的な手法であるMangoを提案する。
論文 参考訳(メタデータ) (2020-12-15T23:41:42Z) - How Well Do Self-Supervised Models Transfer? [92.16372657233394]
我々は、40の下流タスクにおいて、トップ13の自己教師型モデルの転送性能を評価する。
ImageNet Top-1の精度は、マルチショット認識への転送と非常に相関している。
全体としては、単一の自己監督的手法が支配的ではなく、普遍的な事前訓練がまだ未解決であることを示唆している。
論文 参考訳(メタデータ) (2020-11-26T16:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。