論文の概要: MSNER: A Multilingual Speech Dataset for Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2405.11519v1
- Date: Sun, 19 May 2024 11:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 15:22:21.115174
- Title: MSNER: A Multilingual Speech Dataset for Named Entity Recognition
- Title(参考訳): MSNER: 名前付きエンティティ認識のための多言語音声データセット
- Authors: Quentin Meeus, Marie-Francine Moens, Hugo Van hamme,
- Abstract要約: 名前付きエンティティを付加した多言語音声コーパスであるMSNERを紹介する。
これは4つの言語でVoxPopuliデータセットにアノテーションを提供する。
その結果、トレーニングと検証のために590時間15時間の銀の注釈付きスピーチと、17時間手動の注釈付き評価セットが得られた。
- 参考スコア(独自算出の注目度): 34.88608417778945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While extensively explored in text-based tasks, Named Entity Recognition (NER) remains largely neglected in spoken language understanding. Existing resources are limited to a single, English-only dataset. This paper addresses this gap by introducing MSNER, a freely available, multilingual speech corpus annotated with named entities. It provides annotations to the VoxPopuli dataset in four languages (Dutch, French, German, and Spanish). We have also releasing an efficient annotation tool that leverages automatic pre-annotations for faster manual refinement. This results in 590 and 15 hours of silver-annotated speech for training and validation, alongside a 17-hour, manually-annotated evaluation set. We further provide an analysis comparing silver and gold annotations. Finally, we present baseline NER models to stimulate further research on this newly available dataset.
- Abstract(参考訳): テキストベースのタスクでは広く研究されているが、名前付きエンティティ認識(NER)は音声言語理解では無視されている。
既存のリソースは、単一の英語のみのデータセットに限られている。
本論文は,MSNERという,名前付きエンティティを付加した多言語音声コーパスを導入することで,このギャップに対処する。
これはVoxPopuliデータセットに4つの言語(オランダ語、フランス語、ドイツ語、スペイン語)でアノテーションを提供する。
また、自動事前アノテーションを利用して手作業による改善を高速化する効率的なアノテーションツールもリリースしました。
その結果,590時間15時間の銀アノテート音声によるトレーニングと検証が可能となり,手動アノテート評価セットが17時間に短縮された。
さらに、銀と金のアノテーションの比較分析も行います。
最後に、この新たに利用可能なデータセットに関するさらなる研究を促進するために、ベースラインNERモデルを提示する。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning
Experiments for Slovak Named Entity Recognition [0.0]
WikiGoldSKは,スロバキアのNERデータセットを初めてラベル付けした人体である。
我々は、最先端の多言語事前学習言語モデルを評価することで、それをベンチマークする。
数ショットの実験を行い、標準データセットのトレーニングがより良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-08T14:37:52Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Selective Annotation Makes Language Models Better Few-Shot Learners [97.07544941620367]
大規模な言語モデルはコンテキスト内学習を実行でき、いくつかのタスクデモから新しいタスクを学ぶことができる。
本研究は、新しい自然言語タスクのためのデータセット作成において、文脈内学習がもたらす意味について考察する。
本稿では,無教師付きグラフベースの選択的アノテーションであるvoke-kを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:01:15Z) - XED: A Multilingual Dataset for Sentiment Analysis and Emotion Detection [0.42056926734482064]
データセットは、人間の注釈付きフィンランド語(25k)と英語(30k)からなる
我々は、Plutchikのコア感情を使って、中立性を加えたデータセットに注釈を付け、マルチラベルのマルチクラスデータセットを作成します。
データセットは言語固有のBERTモデルとSVMを使用して慎重に評価され、XEDが他の類似したデータセットと同等に動作することを示す。
論文 参考訳(メタデータ) (2020-11-03T10:43:22Z) - UNER: Universal Named-Entity RecognitionFramework [0.0]
私たちは、最初の多言語UNERコーパス(SETimesparallelコーパス)を作成します。
英語のSETimescorpusは、既存のツールと知識ベースを使って注釈付けされる。
結果として得られるアノテーションは、SE-Timesコーパス内の他の言語に自動的に伝達される。
論文 参考訳(メタデータ) (2020-10-23T13:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。