論文の概要: The Greek podcast corpus: Competitive speech models for low-resourced languages with weakly supervised data
- arxiv url: http://arxiv.org/abs/2406.15284v1
- Date: Fri, 21 Jun 2024 16:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 12:53:38.519033
- Title: The Greek podcast corpus: Competitive speech models for low-resourced languages with weakly supervised data
- Title(参考訳): ギリシャ語ポッドキャストコーパス:弱教師付きデータを用いた低リソース言語のための競合音声モデル
- Authors: Georgios Paraskevopoulos, Chara Tsoukala, Athanasios Katsamanis, Vassilis Katsouros,
- Abstract要約: 限られたデジタル表現を持つ言語のための音声技術の開発は、大きな課題となっている。
最近の研究は、弱い監督を利用して利用可能なデータのプールを拡大する可能性を強調している。
本研究では、ポッドキャストから800時間の現代ギリシア語コーパスをコンパイルし、Whisper large-v3を用いて銀の転写を生成する。
- 参考スコア(独自算出の注目度): 8.30310161197726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of speech technologies for languages with limited digital representation poses significant challenges, primarily due to the scarcity of available data. This issue is exacerbated in the era of large, data-intensive models. Recent research has underscored the potential of leveraging weak supervision to augment the pool of available data. In this study, we compile an 800-hour corpus of Modern Greek from podcasts and employ Whisper large-v3 to generate silver transcriptions. This corpus is utilized to fine-tune our models, aiming to assess the efficacy of this approach in enhancing ASR performance. Our analysis spans 16 distinct podcast domains, alongside evaluations on established datasets for Modern Greek. The findings indicate consistent WER improvements, correlating with increases in both data volume and model size. Our study confirms that assembling large, weakly supervised corpora serves as a cost-effective strategy for advancing speech technologies in under-resourced languages.
- Abstract(参考訳): デジタル表現が限られている言語のための音声技術の開発は、主に利用可能なデータの不足のために大きな課題となっている。
この問題は、大規模なデータ集約型モデルの時代において悪化している。
最近の研究は、弱い監督を利用して利用可能なデータのプールを拡大する可能性を強調している。
本研究では、ポッドキャストから800時間の現代ギリシア語コーパスをコンパイルし、Whisper large-v3を用いて銀の転写を生成する。
このコーパスをモデル微調整に利用し、ASR性能向上におけるこのアプローチの有効性を評価することを目的としている。
我々の分析は16の異なるポッドキャストドメインにまたがっており、また現代ギリシャの確立したデータセットの評価も行っている。
この結果は、データボリュームとモデルサイズの両方の増加に関連する、一貫したWERの改善を示している。
本研究は,大規模・弱教師付きコーパスを組み立てることが,低リソース言語における音声技術の進歩に費用対効果をもたらすことを確認した。
関連論文リスト
- Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。
ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。
我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文 参考訳(メタデータ) (2024-11-19T15:55:56Z) - Large Language Model for Verilog Generation with Golden Code Feedback [29.135207235743795]
本研究は,ゴールドコードフィードバックを用いた強化学習を利用して,事前学習モデルの性能を向上させる手法を提案する。
我々は、最先端のSOTA(State-of-the-art)の結果をかなりの差で達成した。特に、我々の6.7Bパラメータモデルは、現行の13Bモデルと16Bモデルと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-07-21T11:25:21Z) - Less is More: Accurate Speech Recognition & Translation without Web-Scale Data [26.461185681285745]
Canaryは多言語ASRおよび音声翻訳モデルである。
英語、フランス語、スペイン語、ドイツ語でWhisper、OWSM、Seamless-M4Tを上回っている。
論文 参考訳(メタデータ) (2024-06-28T06:22:23Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - ReGen: Zero-Shot Text Classification via Training Data Generation with
Progressive Dense Retrieval [22.882301169283323]
一般ドメインの未ラベルコーパスからトレーニングデータを作成するための検索強化フレームワークを提案する。
9つのデータセットの実験では、REGENは最強のベースラインに対して4.3%のゲインを達成し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。
論文 参考訳(メタデータ) (2023-05-18T04:30:09Z) - Retrieval augmentation of large language models for lay language
generation [12.686922203465896]
本稿では,最大 (63kペア) および最大 (12ジャーナル) 並列コーパスである CellS を紹介した。
抽象化とそれに対応するレイ言語要約は、ドメインの専門家によって書かれ、データセットの品質が保証されます。
我々はCellSから2つの特別なペアコーパスを抽出し、素言語生成における重要な課題に対処する。
論文 参考訳(メタデータ) (2022-11-07T19:06:53Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。