論文の概要: A Survey on Spoken Italian Datasets and Corpora
- arxiv url: http://arxiv.org/abs/2501.06557v1
- Date: Sat, 11 Jan 2025 14:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:07.952215
- Title: A Survey on Spoken Italian Datasets and Corpora
- Title(参考訳): イタリアの散発的データセットとコーパスに関する調査
- Authors: Marco Giordano, Claudia Rinaldi,
- Abstract要約: この調査は、66のイタリア語のデータセットを包括的に分析する。
データセットは、音声タイプ、ソースとコンテキスト、人口統計学的特徴と言語学的特徴によって分類される。
データセットの不足,代表性,アクセシビリティに関する課題について論じる。
- 参考スコア(独自算出の注目度): 0.3222802562733787
- License:
- Abstract: Spoken language datasets are vital for advancing linguistic research, Natural Language Processing, and speech technology. However, resources dedicated to Italian, a linguistically rich and diverse Romance language, remain underexplored compared to major languages like English or Mandarin. This survey provides a comprehensive analysis of 66 spoken Italian datasets, highlighting their characteristics, methodologies, and applications. The datasets are categorized by speech type, source and context, and demographic and linguistic features, with a focus on their utility in fields such as Automatic Speech Recognition, emotion detection, and education. Challenges related to dataset scarcity, representativeness, and accessibility are discussed alongside recommendations for enhancing dataset creation and utilization. The full dataset inventory is publicly accessible via GitHub and archived on Zenodo, serving as a valuable resource for researchers and developers. By addressing current gaps and proposing future directions, this work aims to support the advancement of Italian speech technologies and linguistic research.
- Abstract(参考訳): 音声言語データセットは言語研究、自然言語処理、音声技術の発展に不可欠である。
しかし、言語的に豊かで多様なロマンス諸語であるイタリア語に捧げられた資源は、英語やマンダリンのような主要言語と比較して過小評価されている。
このサーベイは66のイタリア語のデータセットを包括的に分析し、その特徴、方法論、応用を明らかにする。
データセットは、音声タイプ、ソースとコンテキスト、および人口統計学的および言語学的特徴によって分類され、自動音声認識、感情検出、教育などの分野におけるそれらの有用性に焦点を当てている。
データセットの不足,代表性,アクセシビリティに関する課題と,データセットの生成と利用の促進に関する推奨事項について論じる。
完全なデータセットのインベントリはGitHubから公開されており、Zenodo上にアーカイブされている。
現在のギャップに対処し、今後の方向性を提案することにより、イタリアの音声技術と言語研究の進歩を支援することを目的としている。
関連論文リスト
- Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
本調査は、低リソース言語誤報検出に関する現在の研究の概要を概観する。
これらの領域で使用されている既存のデータセット、方法論、ツールをレビューし、データリソース、モデル開発、文化的・言語的文脈、現実世界の応用、研究の取り組みに関する重要な課題を特定します。
本研究は,多様な言語・文化的文脈における誤情報に対処できる,堅牢で包括的なシステムの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - Recent Advancements and Challenges of Turkic Central Asian Language Processing [4.189204855014775]
中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。
最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
論文 参考訳(メタデータ) (2024-07-06T08:58:26Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Google Crowdsourced Speech Corpora and Related Open-Source Resources for
Low-Resource Languages and Dialects: An Overview [43.92114369646489]
テキスト音声と自動音声認識アプリケーションを構築するために38のデータセットをリリースした。
本稿では,このようなコーパスの開発に使用される方法論について述べるとともに,表現不足の言語コミュニティに恩恵をもたらす可能性のある知見をいくつか提示する。
論文 参考訳(メタデータ) (2020-10-14T02:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。