論文の概要: Open the Data! Chuvash Datasets
- arxiv url: http://arxiv.org/abs/2407.11982v1
- Date: Fri, 31 May 2024 07:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 11:50:18.584380
- Title: Open the Data! Chuvash Datasets
- Title(参考訳): データのオープン! Chuvash データセット
- Authors: Nikolay Plotnikov, Alexander Antonov,
- Abstract要約: Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
- 参考スコア(独自算出の注目度): 50.59120569845975
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we introduce four comprehensive datasets for the Chuvash language, aiming to support and enhance linguistic research and technological development for this underrepresented language. These datasets include a monolingual dataset, a parallel dataset with Russian, a parallel dataset with English, and an audio dataset. Each dataset is meticulously curated to serve various applications such as machine translation, linguistic analysis, and speech recognition, providing valuable resources for scholars and developers working with the Chuvash language. Together, these datasets represent a significant step towards preserving and promoting the Chuvash language in the digital age.
- Abstract(参考訳): 本稿では,Chuvash言語に対する4つの包括的データセットについて紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
各データセットは、機械翻訳、言語分析、音声認識などの様々な用途に役立ち、Chuvash言語で作業する学者や開発者にとって貴重なリソースを提供するために、慎重にキュレートされている。
これらのデータセットは、デジタル時代のChuvash言語を保存し、促進するための重要なステップである。
関連論文リスト
- A multilingual dataset for offensive language and hate speech detection for hausa, yoruba and igbo languages [0.0]
本研究では,ナイジェリアの3大言語であるHausa,Yoruba,Igboにおいて,攻撃的言語検出のための新しいデータセットの開発と導入の課題に対処する。
私たちはTwitterからデータを収集し、それを手動でアノテートして、ネイティブスピーカーを使用して、3つの言語毎にデータセットを作成しました。
学習済み言語モデルを用いて、データセット中の攻撃的言語の検出の有効性を評価し、最高の性能モデルが90%の精度で達成した。
論文 参考訳(メタデータ) (2024-06-04T09:58:29Z) - The Evolution of Darija Open Dataset: Introducing Version 2 [0.0]
DODaは、Darija-English翻訳における、同種のコラボレーションプロジェクトとしては最大である。
本稿では,DODAの戦略的重要性,その業績,今後の発展について考察する。
論文 参考訳(メタデータ) (2024-05-14T15:08:32Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Documenting Geographically and Contextually Diverse Data Sources: The
BigScience Catalogue of Language Data and Resources [17.69148305999049]
我々はBigScienceイニシアチブの一環として、ドキュメントファーストで人間中心のデータ収集プロジェクトのための方法論を提示する。
我々は,潜在的なデータソースのメタデータを収集する,地理的に多様な対象言語群を同定する。
この取り組みを構築するために,組織化された公開ハッカソンを通じてメタデータを収集する支援ツールとして,オンラインカタログを開発した。
論文 参考訳(メタデータ) (2022-01-25T03:05:23Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - Content4All Open Research Sign Language Translation Datasets [27.36513138911057]
我々は、より大きなニュース領域に関する190時間の映像からなる6つのデータセットをリリースする。
このことから、聴覚障害者の専門家や通訳者が20時間の映像を注釈し、研究目的で公開しています。
論文 参考訳(メタデータ) (2021-05-05T22:14:53Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。