論文の概要: Exploring Spoken Named Entity Recognition: A Cross-Lingual Perspective
- arxiv url: http://arxiv.org/abs/2307.01310v1
- Date: Mon, 3 Jul 2023 19:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 19:16:11.160486
- Title: Exploring Spoken Named Entity Recognition: A Cross-Lingual Perspective
- Title(参考訳): 名前付きエンティティ認識の探索:言語横断的な視点
- Authors: Moncef Benaicha, David Thulke, M. A. Tu\u{g}tekin Turan
- Abstract要約: 本稿では,パイプラインとEnd-to-Endスキームを用いて,オランダ語,英語,ドイツ語間の移動学習を利用する。
我々は、カスタム擬似アノテーションデータセットにWav2Vec2-XLS-Rモデルを適用し、言語間システムの適応性について検討する。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Named Entity Recognition (NER) have significantly
improved the identification of entities in textual data. However, spoken NER, a
specialized field of spoken document retrieval, lags behind due to its limited
research and scarce datasets. Moreover, cross-lingual transfer learning in
spoken NER has remained unexplored. This paper utilizes transfer learning
across Dutch, English, and German using pipeline and End-to-End (E2E) schemes.
We employ Wav2Vec2-XLS-R models on custom pseudo-annotated datasets and
investigate several architectures for the adaptability of cross-lingual
systems. Our results demonstrate that End-to-End spoken NER outperforms
pipeline-based alternatives over our limited annotations. Notably, transfer
learning from German to Dutch surpasses the Dutch E2E system by 7% and the
Dutch pipeline system by 4%. This study not only underscores the feasibility of
transfer learning in spoken NER but also sets promising outcomes for future
evaluations, hinting at the need for comprehensive data collection to augment
the results.
- Abstract(参考訳): 名前付きエンティティ認識(ner)の最近の進歩は、テキストデータにおけるエンティティの識別を大幅に改善した。
しかし、音声文書検索の専門分野であるNERは、限られた研究と少ないデータセットのために遅れている。
さらに,言語間転置学習はいまだに未検討のままである。
本稿では,パイプラインとエンドツーエンド(e2e)スキームを用いて,オランダ語,英語,ドイツ語間の転送学習を行う。
カスタム擬似注釈データセットにwav2vec2-xls-rモデルを適用し,言語間システムの適応性について検討した。
その結果、End-to-End音声NERは、限られたアノテーションよりもパイプラインベースの代替よりも優れていた。
特に、ドイツ語からオランダ語への移行学習はオランダのE2Eシステムを7%、オランダのパイプラインシステムを4%上回っている。
本研究は, 音声NERにおける伝達学習の実現可能性だけでなく, 今後の評価にも期待できる結果を示すとともに, 総合的なデータ収集の必要性を示唆している。
関連論文リスト
- Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - A Multilingual Evaluation of NER Robustness to Adversarial Inputs [0.0]
言語モデルの敵対的評価は典型的には英語のみに焦点をあてる。
本稿では,入力中の小さな摂動に対する頑健性の観点から,名前付きエンティティ認識(NER)の多言語評価を行った。
既存のNERモデルに適応するために,新たなNERモデルをトレーニングするための強化トレーニングデータとして,生成した逆数データセットの一部を用いて既存のNERモデルを改善することが可能か,あるいは微調整データとして検討した。
論文 参考訳(メタデータ) (2023-05-30T10:50:49Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Multilingual Speech Recognition using Knowledge Transfer across Learning
Processes [15.927513451432946]
実験結果から,WER全体の3.55%の相対的な減少が得られた。
LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
論文 参考訳(メタデータ) (2021-10-15T07:50:27Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - DaN+: Danish Nested Named Entities and Lexical Normalization [18.755176247223616]
本稿では,デンマークのネスト付き名前付きエンティティ(NE)と語彙正規化のための,新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介する。
我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。
以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。
論文 参考訳(メタデータ) (2021-05-24T14:35:21Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - Neural Cross-Lingual Transfer and Limited Annotated Data for Named
Entity Recognition in Danish [21.513743126525622]
本稿では,デンマーク語における言語間移動の有効性について検討し,その限定された金データとの相補性を評価し,デンマーク語NERの性能に光を当てる。
論文 参考訳(メタデータ) (2020-03-05T21:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。