論文の概要: ivrit.ai: A Comprehensive Dataset of Hebrew Speech for AI Research and
Development
- arxiv url: http://arxiv.org/abs/2307.08720v1
- Date: Mon, 17 Jul 2023 04:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 17:59:26.262533
- Title: ivrit.ai: A Comprehensive Dataset of Hebrew Speech for AI Research and
Development
- Title(参考訳): ivrit.ai:AI研究開発のためのヘブライ語音声の包括的データセット
- Authors: Yanir Marmor, Kinneret Misgav and Yair Lifshitz
- Abstract要約: ivrit.aiは様々な文脈でヘブライ語の相当な要約を提供している。
このデータセットは、合法的なアクセシビリティで際立っている。
今後の取り組みは、ivrit.aiをさらに拡大し、AI研究と技術におけるヘブライ語の地位を向上することを目指している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce "ivrit.ai", a comprehensive Hebrew speech dataset, addressing
the distinct lack of extensive, high-quality resources for advancing Automated
Speech Recognition (ASR) technology in Hebrew. With over 3,300 speech hours and
a over a thousand diverse speakers, ivrit.ai offers a substantial compilation
of Hebrew speech across various contexts. It is delivered in three forms to
cater to varying research needs: raw unprocessed audio; data post-Voice
Activity Detection, and partially transcribed data. The dataset stands out for
its legal accessibility, permitting use at no cost, thereby serving as a
crucial resource for researchers, developers, and commercial entities. ivrit.ai
opens up numerous applications, offering vast potential to enhance AI
capabilities in Hebrew. Future efforts aim to expand ivrit.ai further, thereby
advancing Hebrew's standing in AI research and technology.
- Abstract(参考訳): 本稿では,ヘブライ語における音声認識(ASR)技術の進歩に向けた,広範囲かつ高品質なリソースの欠如に対処する包括的ヘブライ語音声データセット「ivrit.ai」を紹介する。
3300以上の発話時間と数千以上の多様な話者を抱えたivrit.aiは、様々な文脈でヘブライ語をかなりのコンピレーションで提供する。
生の未処理オーディオ、Voice後のアクティビティ検出データ、部分的に書き起こされたデータという、さまざまな研究ニーズに対応するために、3つの形式で配信される。
データセットは法的アクセシビリティを際立っており、無償で使用することができ、研究者、開発者、商用エンティティにとって重要なリソースとなっている。
ivrit.aiは多数のアプリケーションを開き、ヘブライ語でAI機能を強化する大きな可能性を秘めている。
今後の取り組みは、ivrit.aiをさらに拡大し、AI研究と技術におけるヘブライ語の地位を向上することを目指している。
関連論文リスト
- The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文 参考訳(メタデータ) (2024-09-23T10:12:18Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - ViSpeR: Multilingual Audio-Visual Speech Recognition [9.40993779729177]
本研究は,広範に話される5言語を対象とした音声・視覚音声認識について,広範かつ詳細な研究である。
我々は、英語以外の言語毎に大規模なデータセットを収集し、教師付き学習モデルの訓練に従事した。
我々のモデルであるViSpeRは多言語で訓練されており、結果として各言語で新たに確立されたベンチマーク上での競争性能が向上する。
論文 参考訳(メタデータ) (2024-05-27T14:48:51Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - ParaShoot: A Hebrew Question Answering Dataset [22.55706811131828]
ParaShootは現代のヘブライ語で最初の質問応答データセットである。
我々は最近リリースされたヘブライ語のためのBERTスタイルのモデルを用いて,最初のベースライン結果を提供する。
論文 参考訳(メタデータ) (2021-09-23T11:59:38Z) - AI4D -- African Language Program [0.21960481478626018]
この研究は、言語データセットのクラウドソーシング、収集、キュレーションにインセンティブを与えた3部構成のプロジェクトであるAI4D - African Language Programを詳述している。
これまでの主な成果は、1)9以上のオープンソースの作成、さまざまなMLタスクにアノテートされたアフリカの言語データセット、2)これらのデータセットのベースラインモデルの作成である。
論文 参考訳(メタデータ) (2021-04-06T13:51:16Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。