論文の概要: MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank
- arxiv url: http://arxiv.org/abs/2403.10293v1
- Date: Fri, 15 Mar 2024 13:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-18 17:01:25.302401
- Title: MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank
- Title(参考訳): MaiBaam: バイエルン・ユニバーサル依存ツリーバンク
- Authors: Verena Blaschke, Barbara Kovačić, Siyao Peng, Hinrich Schütze, Barbara Plank,
- Abstract要約: We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
- 参考スコア(独自算出の注目度): 56.810282574817414
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the success of the Universal Dependencies (UD) project exemplified by its impressive language breadth, there is still a lack in `within-language breadth': most treebanks focus on standard languages. Even for German, the language with the most annotations in UD, so far no treebank exists for one of its language varieties spoken by over 10M people: Bavarian. To contribute to closing this gap, we present the first multi-dialect Bavarian treebank (MaiBaam) manually annotated with part-of-speech and syntactic dependency information in UD, covering multiple text genres (wiki, fiction, grammar examples, social, non-fiction). We highlight the morphosyntactic differences between the closely-related Bavarian and German and showcase the rich variability of speakers' orthographies. Our corpus includes 15k tokens, covering dialects from all Bavarian-speaking areas spanning three countries. We provide baseline parsing and POS tagging results, which are lower than results obtained on German and vary substantially between different graph-based parsers. To support further research on Bavarian syntax, we make our dataset, language-specific guidelines and code publicly available.
- Abstract(参考訳): Universal Dependencies (UD) プロジェクトの成功は、その印象的な言語幅によって実証されているが、それでも 'within-Language breadth' は不足している。
ドイツ語でも、UDに最も注釈が付けられた言語は、これまでに1000万人以上の人々が話していた言語のひとつ、バイエルン語には、ツリーバンクは存在しない。
このギャップの解消に寄与するため,我々は,複数のテキストジャンル(wiki, フィクション, 文法例, 社会, ノンフィクション)を網羅したバイエルン語ツリーバンク(MaiBaam)をUDで手動で注釈付けした最初の多言語木バンク(MaiBaam)を提案する。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
ベースライン解析とPOSタグ付けの結果は、ドイツ語で得られた結果よりも低く、グラフベースのパーサによって大きく異なる。
バイエルン語構文のさらなる研究を支援するため、データセット、言語固有のガイドライン、コードを公開しています。
関連論文リスト
- Sebastian, Basti, Wastl?! Recognizing Named Entities in Bavarian Dialectal Data [19.914643388631728]
本稿では,バイエルン語ウィキペディアの記事(bar-wiki)とつぶやき(bar-tweet)に注釈付き161Kトークンを付加したドイツ語の方言NERデータセットであるBarNERを紹介する。
バイエルン方言は、語彙分布、構文構成、実体情報において標準ドイツ語とは異なる。
論文 参考訳(メタデータ) (2024-03-19T14:12:54Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Low-resource Bilingual Dialect Lexicon Induction with Large Language
Models [24.080565202390314]
バイエルン方言とアレマン方言の2つの方言について,バイリンガル語彙誘導パイプラインの解析を行った。
この設定は、リソースの不足、言語の関連性、方言の正書法における標準化の欠如など、いくつかの課題を引き起こす。
論文 参考訳(メタデータ) (2023-04-19T20:20:41Z) - Sememe Prediction for BabelNet Synsets using Multilingual and Multimodal
Information [89.24684041258747]
セメムナレッジベース(KB)は、手動でセメムでアノテートすることで構築される。
既存のSememe KBはいくつかの言語しかサポートしていないため、Sememeの利用を妨げている。
本稿では,多言語百科事典BabelNetをベースとした多言語セメムKBの構築を目的とする。
論文 参考訳(メタデータ) (2022-03-14T18:37:09Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Prague Dependency Treebank -- Consolidated 1.0 [1.7147127043116672]
Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0)
PDT-C 1.0はチェコの4つの異なるデータセットを含み、標準のPDTスキームで一様に注釈付けされている。
ツリーバンクには、その形態的、表面的、そして深い構文的アノテーションを含む約180,000の文が含まれている。
論文 参考訳(メタデータ) (2020-06-05T20:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。