Fugu-MT 論文翻訳(概要): ivrit.ai: A Comprehensive Dataset of Hebrew Speech for AI Research and Development

論文の概要: ivrit.ai: A Comprehensive Dataset of Hebrew Speech for AI Research and Development

arxiv url: http://arxiv.org/abs/2307.08720v1
Date: Mon, 17 Jul 2023 04:19:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-19 17:59:26.262533
Title: ivrit.ai: A Comprehensive Dataset of Hebrew Speech for AI Research and Development
Title（参考訳）: ivrit.ai:AI研究開発のためのヘブライ語音声の包括的データセット
Authors: Yanir Marmor, Kinneret Misgav and Yair Lifshitz
Abstract要約: ivrit.aiは様々な文脈でヘブライ語の相当な要約を提供している。このデータセットは、合法的なアクセシビリティで際立っている。今後の取り組みは、ivrit.aiをさらに拡大し、AI研究と技術におけるヘブライ語の地位を向上することを目指している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce "ivrit.ai", a comprehensive Hebrew speech dataset, addressing the distinct lack of extensive, high-quality resources for advancing Automated Speech Recognition (ASR) technology in Hebrew. With over 3,300 speech hours and a over a thousand diverse speakers, ivrit.ai offers a substantial compilation of Hebrew speech across various contexts. It is delivered in three forms to cater to varying research needs: raw unprocessed audio; data post-Voice Activity Detection, and partially transcribed data. The dataset stands out for its legal accessibility, permitting use at no cost, thereby serving as a crucial resource for researchers, developers, and commercial entities. ivrit.ai opens up numerous applications, offering vast potential to enhance AI capabilities in Hebrew. Future efforts aim to expand ivrit.ai further, thereby advancing Hebrew's standing in AI research and technology.
Abstract（参考訳）: 本稿では,ヘブライ語における音声認識(ASR)技術の進歩に向けた,広範囲かつ高品質なリソースの欠如に対処する包括的ヘブライ語音声データセット「ivrit.ai」を紹介する。 3300以上の発話時間と数千以上の多様な話者を抱えたivrit.aiは、様々な文脈でヘブライ語をかなりのコンピレーションで提供する。生の未処理オーディオ、Voice後のアクティビティ検出データ、部分的に書き起こされたデータという、さまざまな研究ニーズに対応するために、3つの形式で配信される。データセットは法的アクセシビリティを際立っており、無償で使用することができ、研究者、開発者、商用エンティティにとって重要なリソースとなっている。 ivrit.aiは多数のアプリケーションを開き、ヘブライ語でAI機能を強化する大きな可能性を秘めている。今後の取り組みは、ivrit.aiをさらに拡大し、AI研究と技術におけるヘブライ語の地位を向上することを目指している。

関連論文リスト

WAXAL: A Large-Scale Multilingual African Language Speech Corpus [12.433885475371035]
WAXALは1億人以上の話者を表す21言語のための大規模でオープンにアクセスできる音声データセットである。このコレクションは、約1,250時間の書き起こしを含む自動音声認識(ASR)データセットと、さまざまな話者からの自然な音声を含むテキスト音声合成(TTS)データセットの2つの主要コンポーネントで構成されている。
論文参考訳（メタデータ） (2026-02-02T19:49:19Z)
AI-Generated Text Detection in Low-Resource Languages: A Case Study on Urdu [0.0]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成することができるようになった。これにより、テキストが人間によって書かれたのか、あるいは機械によって書かれたのかを知るのが難しくなる。本稿では,Urdu言語に適した新しいAI生成テキスト検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-18T16:45:25Z)
Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文参考訳（メタデータ） (2025-05-05T08:52:49Z)
A Survey on Spoken Italian Datasets and Corpora [0.3222802562733787]
この調査は、66のイタリア語のデータセットを包括的に分析する。データセットは、音声タイプ、ソースとコンテキスト、人口統計学的特徴と言語学的特徴によって分類される。データセットの不足,代表性,アクセシビリティに関する課題について論じる。
論文参考訳（メタデータ） (2025-01-11T14:33:57Z)
From Statistical Methods to Pre-Trained Models; A Survey on Automatic Speech Recognition for Resource Scarce Urdu Language [41.272055304311905]
本稿では,東南アジア諸国で広く話されている資源制約のあるウルドゥー語について述べる。ウルドゥーASRにおける将来の研究の現在の研究動向、技術進歩、および潜在的方向性について概説する。
論文参考訳（メタデータ） (2024-11-20T17:39:56Z)
The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文参考訳（メタデータ） (2024-09-23T10:12:18Z)
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文参考訳（メタデータ） (2024-09-17T08:36:45Z)
ViSpeR: Multilingual Audio-Visual Speech Recognition [9.40993779729177]
本研究は,広範に話される5言語を対象とした音声・視覚音声認識について,広範かつ詳細な研究である。我々は、英語以外の言語毎に大規模なデータセットを収集し、教師付き学習モデルの訓練に従事した。我々のモデルであるViSpeRは多言語で訓練されており、結果として各言語で新たに確立されたベンチマーク上での競争性能が向上する。
論文参考訳（メタデータ） (2024-05-27T14:48:51Z)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (2024-02-09T18:51:49Z)
Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文参考訳（メタデータ） (2022-07-01T23:28:16Z)
Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文参考訳（メタデータ） (2022-01-26T22:12:55Z)
Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。 MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文参考訳（メタデータ） (2022-01-07T12:09:15Z)
ParaShoot: A Hebrew Question Answering Dataset [22.55706811131828]
ParaShootは現代のヘブライ語で最初の質問応答データセットである。我々は最近リリースされたヘブライ語のためのBERTスタイルのモデルを用いて,最初のベースライン結果を提供する。
論文参考訳（メタデータ） (2021-09-23T11:59:38Z)
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文参考訳（メタデータ） (2020-08-09T08:16:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。