論文の概要: LuxBank: The First Universal Dependency Treebank for Luxembourgish
- arxiv url: http://arxiv.org/abs/2411.04813v1
- Date: Thu, 07 Nov 2024 15:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:01.317784
- Title: LuxBank: The First Universal Dependency Treebank for Luxembourgish
- Title(参考訳): ルックスバンク:ルクセンブルクで初のユニバーサル依存ツリーバンク
- Authors: Alistair Plum, Caroline Döhmer, Emilia Milano, Anne-Marie Lutgen, Christoph Purschke,
- Abstract要約: ルクセンブルク語(Luxembourgish)は、西ゲルマンの約40万人が話している言語である。
ルクセンブルクにおける最初のユニバーサル依存(UD)ツリーバンクであるLuxBankを紹介する。
- 参考スコア(独自算出の注目度): 0.38447712214412116
- License:
- Abstract: The Universal Dependencies (UD) project has significantly expanded linguistic coverage across 161 languages, yet Luxembourgish, a West Germanic language spoken by approximately 400,000 people, has remained absent until now. In this paper, we introduce LuxBank, the first UD Treebank for Luxembourgish, addressing the gap in syntactic annotation and analysis for this `low-research' language. We establish formal guidelines for Luxembourgish language annotation, providing the foundation for the first large-scale quantitative analysis of its syntax. LuxBank serves not only as a resource for linguists and language learners but also as a tool for developing spell checkers and grammar checkers, organising existing text archives and even training large language models. By incorporating Luxembourgish into the UD framework, we aim to enhance the understanding of syntactic variation within West Germanic languages and offer a model for documenting smaller, semi-standardised languages. This work positions Luxembourgish as a valuable resource in the broader linguistic and NLP communities, contributing to the study of languages with limited research and resources.
- Abstract(参考訳): ユニバーサル・依存性(UD)プロジェクトは161言語で言語範囲を大きく拡大しているが、西ゲルマン語であるルクセンブルク語(英語版)は40万人が話しており、現在まで不在である。
本稿では,ルクセンブルク語の最初のUDツリーバンクであるLuxBankを紹介する。
我々はルクセンブルク語アノテーションの形式的ガイドラインを確立し、その構文を初めて大規模に定量的に分析する基盤を提供する。
LuxBankは、言語学者や言語学習者のためのリソースとしてだけでなく、スペルチェッカーや文法チェッカーの開発、既存のテキストアーカイブの組織化、さらには大規模な言語モデルのトレーニングのためのツールとしても機能している。
ルクセンブルク語をUDフレームワークに組み込むことで、西ゲルマン語における構文変化の理解を深め、より小さく半標準化された言語を文書化するモデルを提供することを目指している。
この研究は、ルクセンブルク語を広い言語とNLPコミュニティの貴重な資源と位置づけ、限られた研究と資源を持つ言語の研究に貢献した。
関連論文リスト
- The Zeno's Paradox of `Low-Resource' Languages [20.559416975723142]
いくつかの相互作用する軸が、言語の低リソース化にどのように寄与するかを示す。
私たちの研究は、論文で使われている用語の明確な定義を導き出すことを願っています。
論文 参考訳(メタデータ) (2024-10-28T08:05:34Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Spanish Resource Grammar version 2023 [12.009437358109407]
スペイン資源文法(SRG)の最新バージョンについて紹介する。
このような文法は、文法に関する複雑な仮説の集合を符号化し、言語理論の実証的なテストのリソースとなる。
SRGのこのバージョンは、最新のFreeling形態を使っており、自動生成され、手動で検証された2,291文のツリーバンクと共にリリースされている。
論文 参考訳(メタデータ) (2023-09-23T09:24:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Low-resource Bilingual Dialect Lexicon Induction with Large Language
Models [24.080565202390314]
バイエルン方言とアレマン方言の2つの方言について,バイリンガル語彙誘導パイプラインの解析を行った。
この設定は、リソースの不足、言語の関連性、方言の正書法における標準化の欠如など、いくつかの課題を引き起こす。
論文 参考訳(メタデータ) (2023-04-19T20:20:41Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - RuCoLA: Russian Corpus of Linguistic Acceptability [6.500438378175089]
ロシア言語受容性コーパス(RuCoLA)について紹介する。
RuCoLAは、言語出版物の9.8ドルのドメイン内文と、生成モデルによって生成される3.6ドルのドメイン外文で構成されている。
最も広く使われている言語モデルは、特に形態的および意味的誤りを検出する際に、大きなマージンで人間に後れを取っていることを実証する。
論文 参考訳(メタデータ) (2022-10-23T18:29:22Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。