論文の概要: TEDxTN: A Three-way Speech Translation Corpus for Code-Switched Tunisian Arabic - English
- arxiv url: http://arxiv.org/abs/2511.10780v1
- Date: Thu, 13 Nov 2025 20:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.320942
- Title: TEDxTN: A Three-way Speech Translation Corpus for Code-Switched Tunisian Arabic - English
- Title(参考訳): TEDxTN: Code-Switched Tunisian Arabic - English のための3方向音声翻訳コーパス
- Authors: Fethi Bougares, Salima Mdhaffar, Haroun Elleuch, Yannick Estève,
- Abstract要約: 本稿では、チュニジア語から英語への翻訳データセットであるTEDxTNを紹介する。
内部で開発されたアノテーションガイドラインに従って、108のTEDxトークを収集、セグメント化、書き起こし、翻訳しました。
収集された講演は、チュニジアの11以上の地域からさまざまなアクセントで話者をカバーした、コードスイッチによる25時間のスピーチを表している。
- 参考スコア(独自算出の注目度): 11.457009449330071
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce TEDxTN, the first publicly available Tunisian Arabic to English speech translation dataset. This work is in line with the ongoing effort to mitigate the data scarcity obstacle for a number of Arabic dialects. We collected, segmented, transcribed and translated 108 TEDx talks following our internally developed annotations guidelines. The collected talks represent 25 hours of speech with code-switching that cover speakers with various accents from over 11 different regions of Tunisia. We make the annotation guidelines and corpus publicly available. This will enable the extension of TEDxTN to new talks as they become available. We also report results for strong baseline systems of Speech Recognition and Speech Translation using multiple pre-trained and fine-tuned end-to-end models. This corpus is the first open source and publicly available speech translation corpus of Code-Switching Tunisian dialect. We believe that this is a valuable resource that can motivate and facilitate further research on the natural language processing of Tunisian Dialect.
- Abstract(参考訳): 本稿では,チュニジア語から英語への翻訳データセットであるTEDxTNを紹介する。
この作業は、多くのアラビア方言のデータ不足の障害を軽減するために進行中の努力と一致している。
内部で開発されたアノテーションガイドラインに従って、108のTEDxトークを収集、セグメント化、書き起こし、翻訳しました。
収集された講演は、チュニジアの11以上の地域からさまざまなアクセントで話者をカバーした、コードスイッチによる25時間のスピーチを表している。
アノテーションガイドラインとコーパスを公開しています。
これにより、TEDxTNの新たな講演への拡張が可能になる。
また,複数の訓練済みおよび微調整済みのエンドツーエンドモデルを用いて,音声認識と音声翻訳の強力なベースラインシステムについて報告する。
このコーパスは、Code-Switching Tunisian 方言の最初のオープンソースで公開されている音声翻訳コーパスである。
チュニジア方言の自然言語処理のさらなる研究を動機づけ、促進できる貴重な資源であると我々は信じている。
関連論文リスト
- SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - End-to-End Speech Translation of Arabic to English Broadcast News [2.375764121997739]
音声翻訳(英: speech translation, ST)とは、ソース言語の音声信号を外国語のテキストに翻訳する作業である。
本稿では,最初のアラビア語から英語への翻訳システムであるブロードキャストニュースの開発に向けた取り組みについて述べる。
論文 参考訳(メタデータ) (2022-12-11T11:35:46Z) - LibriS2S: A German-English Speech-to-Speech Translation Corpus [12.376309678270275]
我々はドイツ語と英語による音声合成訓練コーパスを初めて公開する。
これにより、新しい音声合成モデルと音声合成モデルの作成が可能になる。
本稿では,最近提案されたFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T09:33:31Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。