論文の概要: ITALIC: An Italian Intent Classification Dataset
- arxiv url: http://arxiv.org/abs/2306.08502v1
- Date: Wed, 14 Jun 2023 13:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:58:20.864606
- Title: ITALIC: An Italian Intent Classification Dataset
- Title(参考訳): ITALIC: イタリアのインテント分類データセット
- Authors: Alkis Koudounas, Moreno La Quatra, Lorenzo Vaiani, Luca Colomba,
Giuseppe Attanasio, Eliana Pastor, Luca Cagliero, Elena Baralis
- Abstract要約: ITALICはイタリア語で意図分類用に設計された最初の大規模音声データセットである。
このデータセットは、イタリア各地の70人の話者が記録した16,521人のクラウドソースオーディオサンプルで構成されている。
意図分類の結果から,大規模化や言語適応の促進により,より優れた音声モデルが得られることが示唆された。
- 参考スコア(独自算出の注目度): 16.970030804283745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large-scale Spoken Language Understanding datasets focus predominantly
on English and do not account for language-specific phenomena such as
particular phonemes or words in different lects. We introduce ITALIC, the first
large-scale speech dataset designed for intent classification in Italian. The
dataset comprises 16,521 crowdsourced audio samples recorded by 70 speakers
from various Italian regions and annotated with intent labels and additional
metadata. We explore the versatility of ITALIC by evaluating current
state-of-the-art speech and text models. Results on intent classification
suggest that increasing scale and running language adaptation yield better
speech models, monolingual text models outscore multilingual ones, and that
speech recognition on ITALIC is more challenging than on existing Italian
benchmarks. We release both the dataset and the annotation scheme to streamline
the development of new Italian SLU models and language-specific datasets.
- Abstract(参考訳): 最近の大規模音声言語理解データセットは、主に英語に焦点を当てており、特定の音素や異なる発話中の単語といった言語固有の現象を考慮していない。
ITALICはイタリア語で意図分類用に設計された最初の大規模音声データセットである。
このデータセットは、イタリア各地の70人の話者が記録した16,521人のクラウドソースオーディオサンプルからなり、インテントラベルと追加メタデータが付加されている。
我々は現在最先端の音声とテキストモデルを評価することでITALICの汎用性を探求する。
意図分類の結果から,大規模化や言語適応の促進により,より優れた音声モデルが得られ,モノリンガルテキストモデルが多言語モデルよりも優れていることが示唆された。
我々は、新しいイタリアSLUモデルと言語固有のデータセットの開発を効率化するために、データセットとアノテーションスキームの両方をリリースする。
関連論文リスト
- Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.660499609887886]
Speech-MASSIVEは多言語音声言語理解データセットである。
異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。
本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文 参考訳(メタデータ) (2024-08-07T16:55:28Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset [77.99182201815763]
本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
論文 参考訳(メタデータ) (2022-11-14T12:39:41Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。