論文の概要: Sebastian, Basti, Wastl?! Recognizing Named Entities in Bavarian Dialectal Data
- arxiv url: http://arxiv.org/abs/2403.12749v1
- Date: Tue, 19 Mar 2024 14:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:03:58.985193
- Title: Sebastian, Basti, Wastl?! Recognizing Named Entities in Bavarian Dialectal Data
- Title(参考訳): セバスティアン、バスティ、ワストル?バイエルン方言における名前付き実体の認識
- Authors: Siyao Peng, Zihang Sun, Huangyan Shan, Marie Kolm, Verena Blaschke, Ekaterina Artemova, Barbara Plank,
- Abstract要約: 本稿では,バイエルン語ウィキペディアの記事(bar-wiki)とつぶやき(bar-tweet)に注釈付き161Kトークンを付加したドイツ語の方言NERデータセットであるBarNERを紹介する。
バイエルン方言は、語彙分布、構文構成、実体情報において標準ドイツ語とは異なる。
- 参考スコア(独自算出の注目度): 19.914643388631728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) is a fundamental task to extract key information from texts, but annotated resources are scarce for dialects. This paper introduces the first dialectal NER dataset for German, BarNER, with 161K tokens annotated on Bavarian Wikipedia articles (bar-wiki) and tweets (bar-tweet), using a schema adapted from German CoNLL 2006 and GermEval. The Bavarian dialect differs from standard German in lexical distribution, syntactic construction, and entity information. We conduct in-domain, cross-domain, sequential, and joint experiments on two Bavarian and three German corpora and present the first comprehensive NER results on Bavarian. Incorporating knowledge from the larger German NER (sub-)datasets notably improves on bar-wiki and moderately on bar-tweet. Inversely, training first on Bavarian contributes slightly to the seminal German CoNLL 2006 corpus. Moreover, with gold dialect labels on Bavarian tweets, we assess multi-task learning between five NER and two Bavarian-German dialect identification tasks and achieve NER SOTA on bar-wiki. We substantiate the necessity of our low-resource BarNER corpus and the importance of diversity in dialects, genres, and topics in enhancing model performance.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、テキストからキー情報を抽出する基本的なタスクであるが、注釈付きリソースは方言には乏しい。
本稿では,バイエルン語ウィキペディアの記事(bar-wiki)とつぶやき(bar-tweet)に161Kのトークンを付加したドイツ語の方言NERデータセットであるBarNERについて,ドイツ語のCoNLL 2006とGermEvalのスキーマを用いて紹介する。
バイエルン方言は、語彙分布、構文構成、実体情報において標準ドイツ語とは異なる。
2つのバイエルンおよび3つのドイツのコーパスに対して、ドメイン内、クロスドメイン、シーケンシャルおよび共同実験を行い、バイエルンに関する最初の総合的なNER結果を示す。
より大きなドイツのNER(sub-)データセットからの知識を組み込むことは、バーウィキやバーツイートで顕著に改善される。
逆に、バイエルンでのトレーニングはドイツのCoNLL 2006コーパスにわずかに貢献する。
さらに,バイエルン語ツイートのゴールド・ダイアログラベルを用いて,5つのNERと2つのバイエルン・ドイツ方言識別タスク間のマルチタスク学習を評価し,バーウィキ上でNER SOTAを実現する。
我々は、低リソースのBarNERコーパスの必要性と、モデルパフォーマンス向上における方言、ジャンル、トピックにおける多様性の重要性を裏付ける。
関連論文リスト
- Improving Dialectal Slot and Intent Detection with Auxiliary Tasks: A Multi-Dialectal Bavarian Case Study [22.89563355840371]
スロット・インテント検出(SID)のためのゼロショット変換学習の検討
複数のバイエルン方言に焦点を当て、ミュンヘン方言の新しいデータセットをリリースする。
バイエルンにおける補助的なタスクで訓練されたモデルを評価し,共同マルチタスク学習と中間タスク学習を比較した。
補助タスクは意図分類よりもスロットフィリングに肯定的な効果があり,中間タスクトレーニングはより一貫したパフォーマンス向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2025-01-07T15:21:07Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - Low-resource Bilingual Dialect Lexicon Induction with Large Language
Models [24.080565202390314]
バイエルン方言とアレマン方言の2つの方言について,バイリンガル語彙誘導パイプラインの解析を行った。
この設定は、リソースの不足、言語の関連性、方言の正書法における標準化の欠如など、いくつかの課題を引き起こす。
論文 参考訳(メタデータ) (2023-04-19T20:20:41Z) - AISHELL-NER: Named Entity Recognition from Chinese Speech [54.434118596263126]
中国語音声からのNERのための新しいデータセットAISEHLL-NERを提案する。
その結果,ASRと事前学習したNERタグを併用することにより,性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2022-02-17T09:18:48Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - GottBERT: a pure German Language Model [0.0]
ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
論文 参考訳(メタデータ) (2020-12-03T17:45:03Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - A Swiss German Dictionary: Variation in Speech and Writing [45.82374977939355]
スイスドイツ語の諸方言における共通語の形態を含む辞書をハイドイツ語に正規化する。
この多様性に関連する不確実性を軽減するため、スイスドイツ語の高ドイツ語語対とスイスドイツ語の音素転写(SAMPA)を補完する。
したがって、この辞書は、大規模自然翻訳と音声の書き起こしを組み合わせた最初のリソースとなる。
論文 参考訳(メタデータ) (2020-03-31T22:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。