論文の概要: RUMLEM: A Dictionary-Based Lemmatizer for Romansh
- arxiv url: http://arxiv.org/abs/2604.11233v1
- Date: Mon, 13 Apr 2026 09:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.457175
- Title: RUMLEM: A Dictionary-Based Lemmatizer for Romansh
- Title(参考訳): RUMLEM: ロマンシュのための辞書ベースのレンマタイザ
- Authors: Dominic P. Fischer, Zachary Hopton, Jannis Vamvas,
- Abstract要約: RUMLEM(英: RUMLEM)は、ロマンシュの5つの主要な品種と、超地域標準品種であるルマンチュ・グリシュンをカバーする補題である。
これは、RUMLEMが典型的なロマンシュ語の77-84%の単語をカバーできるようにする、ロマンシュのための包括的でコミュニティ主導型の形態データベースに基づいている。
長さの異なる30万のロマンシュテキストの評価は、RUMLEMが95%のケースで正しく品種を識別していることを示している。
- 参考スコア(独自算出の注目度): 10.068173369769948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lemmatization -- the task of mapping an inflected word form to its dictionary form -- is a crucial component of many NLP applications. In this paper, we present RUMLEM, a lemmatizer that covers the five main varieties of Romansh as well as the supra-regional standard variety Rumantsch Grischun. It is based on comprehensive, community-driven morphological databases for Romansh, enabling RUMLEM to cover 77-84% of the words in a typical Romansh text. Since there is a dedicated database for each Romansh variety, an additional application of RUMLEM is variety-aware language classification. Evaluation on 30'000 Romansh texts of varying lengths shows that RUMLEM correctly identifies the variety in 95% of cases. In addition, a proof of concept demonstrates the feasibility of Romansh vs. non-Romansh language classification based on the lemmatizer.
- Abstract(参考訳): 単語形式を辞書形式にマッピングするタスクであるLemmatizationは、多くのNLPアプリケーションにおいて重要なコンポーネントである。
本稿では,5種類のロマンシュと超地域標準多様体ルマンチュ・グリシュンをカバーする補題であるRUMLEMについて述べる。
これは、RUMLEMが典型的なロマンシュ語の77-84%の単語をカバーできるようにする、ロマンシュのための包括的でコミュニティ主導型の形態データベースに基づいている。
各ロマンシュ多様体に専用データベースが存在するため、RUMLEMのさらなる応用は多言語分類である。
長さの異なる30万のロマンシュテキストの評価は、RUMLEMが95%のケースで正しく品種を識別していることを示している。
さらに、概念実証は、レマタイザーに基づくロマンシュ対非ロマンシュ語分類の実現可能性を示している。
関連論文リスト
- Robust Language Identification for Romansh Varieties [12.714323611050455]
ロマンシュ語には、イディオムと呼ばれるいくつかの地域品種があり、時には相互の知性に制限がある。
ロマンシュ LID はまた、いくつかのイディオムの要素を組み合わせた超地域多様体であるルマンチュ・グリシュン(Rumantsch Grischun)を認識できなければならないので、これは新しく興味深い分類問題である。
本稿では,SVM アプローチに基づくロマンシュイディオムの LID システムを提案する。
論文 参考訳(メタデータ) (2026-03-16T22:42:10Z) - RomanLens: The Role Of Latent Romanization In Multilinguality In LLMs [18.27925188037189]
大きな言語モデル(LLM)は、英語中心のコーパスで主に訓練されているにもかかわらず、強い多言語のパフォーマンスを示す。
LLMはこのような多言語機能をどのように達成しますか?
非ローマ文字で書かれた言語に着目し、多言語処理における潜在的ブリッジとしてのロマン化の役割について検討する。
論文 参考訳(メタデータ) (2025-02-11T10:10:26Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Clustering Word Embeddings with Self-Organizing Maps. Application on
LaRoSeDa -- A Large Romanian Sentiment Data Set [15.877673959068455]
ルーマニア語は、計算言語学の下位言語の一つである。
ルーマニアの大規模な感情データセットであるLaRoSeDaを紹介します。
k平均クラスタリングアルゴリズムを自己組織化マップに置き換える。
論文 参考訳(メタデータ) (2021-01-11T21:19:22Z) - A Clustering Framework for Lexical Normalization of Roman Urdu [10.746384310607157]
ウルドゥー語(ウルドゥー語: Urdu)は、ローマ文字で書かれたウルドゥー語の非公式な形式である。
標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。
ローマ・ウルドゥ・コーパスの語彙正規化のための特徴に基づくクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:21:55Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。