論文の概要: Granary: Speech Recognition and Translation Dataset in 25 European Languages
- arxiv url: http://arxiv.org/abs/2505.13404v2
- Date: Wed, 21 May 2025 17:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.340632
- Title: Granary: Speech Recognition and Translation Dataset in 25 European Languages
- Title(参考訳): Granary:25言語における音声認識と翻訳データセット
- Authors: Nithin Rao Koluguri, Monica Sekoyan, George Zelenfroynd, Sasha Meister, Shuoyang Ding, Sofia Kostandian, He Huang, Nikolay Karpov, Jagadeesh Balam, Vitaly Lavrukhin, Yifan Peng, Sara Papi, Marco Gaido, Alessio Brutti, Boris Ginsburg,
- Abstract要約: Granaryは、25のヨーロッパ言語をまたがる認識と翻訳のための音声データセットの大規模なコレクションである。
これは、この規模で書き起こしと翻訳の両方を行う最初のオープンソース取り組みである。
- 参考スコア(独自算出の注目度): 37.561934855489504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task and multilingual approaches benefit large models, yet speech processing for low-resource languages remains underexplored due to data scarcity. To address this, we present Granary, a large-scale collection of speech datasets for recognition and translation across 25 European languages. This is the first open-source effort at this scale for both transcription and translation. We enhance data quality using a pseudo-labeling pipeline with segmentation, two-pass inference, hallucination filtering, and punctuation restoration. We further generate translation pairs from pseudo-labeled transcriptions using EuroLLM, followed by a data filtration pipeline. Designed for efficiency, our pipeline processes vast amount of data within hours. We assess models trained on processed data by comparing their performance on previously curated datasets for both high- and low-resource languages. Our findings show that these models achieve similar performance using approx. 50% less data. Dataset will be made available at https://hf.co/datasets/nvidia/Granary
- Abstract(参考訳): マルチタスクと多言語アプローチは大規模モデルの恩恵を受けるが、低リソース言語のための音声処理はデータ不足のため未探索のままである。
この問題に対処するため,25言語にわたる音声認識と翻訳のための大規模データセットコレクションであるGranaryを紹介した。
これは、この規模で書き起こしと翻訳の両方を行う最初のオープンソース取り組みである。
我々は,セグメンテーション,2パス推論,幻覚フィルタリング,句読点復元機能を備えた疑似ラベルパイプラインを用いて,データ品質を向上させる。
さらに、EuroLLMを用いて擬似ラベル転写から翻訳ペアを生成し、次にデータフィルタリングパイプラインを生成する。
効率性のために設計されたパイプラインは、数時間で大量のデータを処理します。
我々は、前回キュレートされたデータセットの性能を比較して、処理データに基づいて訓練されたモデルを評価する。
以上の結果から,これらのモデルが近似を用いて同様の性能を達成できることが示唆された。
50%少ないデータです
Datasetはhttps://hf.co/datasets/nvidia/Granaryで利用可能になる
関連論文リスト
- Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking [2.321323878201932]
MultiSynFactは、2.2Mのクレームソースペアを含む最初の大規模多言語ファクトチェックデータセットである。
我々のデータセット生成パイプラインはLarge Language Models (LLMs)を活用し、ウィキペディアの外部知識を統合する。
ユーザフレンドリーなフレームワークをオープンソースとして公開し、マルチリンガルなファクトチェックとデータセット生成のさらなる研究を支援します。
論文 参考訳(メタデータ) (2025-02-21T12:38:26Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Model and Data Transfer for Cross-Lingual Sequence Labelling in
Zero-Resource Settings [10.871587311621974]
我々は、ゼロショット設定に適用された高容量多言語言語モデルが、データベースのクロスランガルトランスファーアプローチより一貫して優れていることを実験的に実証した。
この結果の詳細な分析は、言語使用における重要な違いによる可能性があることを示唆している。
また,高容量多言語言語モデルが利用できない場合,データに基づく多言語間移動アプローチが競争力のある選択肢であることも示唆した。
論文 参考訳(メタデータ) (2022-10-23T05:37:35Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。