論文の概要: Simple Additions, Substantial Gains: Expanding Scripts, Languages, and Lineage Coverage in URIEL+
- arxiv url: http://arxiv.org/abs/2510.27183v1
- Date: Fri, 31 Oct 2025 05:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.988872
- Title: Simple Additions, Substantial Gains: Expanding Scripts, Languages, and Lineage Coverage in URIEL+
- Title(参考訳): 単純な追加、実質的なゲイン:URIEL+におけるスクリプト、言語、リニアジュカバレッジの拡張
- Authors: Mason Shipton, York Hay Ng, Aditya Khan, Phuong Hanh Hoang, Xiang Lu, A. Seza Doğruöz, En-Shiun Annie Lee,
- Abstract要約: 本稿では,7,488言語で記述するシステム特性を表すスクリプトベクトルを導入し,Glottologを統合して18,710言語を追加し,26,449言語で系統計算を拡張した。
これらの追加により、スクリプトベクタの機能が14%減少し、言語カバレッジが19,015言語(1,007%)向上し、インキュベーション品質のメトリクスが最大33%向上した。
- 参考スコア(独自算出の注目度): 3.823088132034765
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The URIEL+ linguistic knowledge base supports multilingual research by encoding languages through geographic, genetic, and typological vectors. However, data sparsity remains prevalent, in the form of missing feature types, incomplete language entries, and limited genealogical coverage. This limits the usefulness of URIEL+ in cross-lingual transfer, particularly for supporting low-resource languages. To address this sparsity, this paper extends URIEL+ with three contributions: introducing script vectors to represent writing system properties for 7,488 languages, integrating Glottolog to add 18,710 additional languages, and expanding lineage imputation for 26,449 languages by propagating typological and script features across genealogies. These additions reduce feature sparsity by 14% for script vectors, increase language coverage by up to 19,015 languages (1,007%), and improve imputation quality metrics by up to 33%. Our benchmark on cross-lingual transfer tasks (oriented around low-resource languages) shows occasionally divergent performance compared to URIEL+, with performance gains up to 6% in certain setups. Our advances make URIEL+ more complete and inclusive for multilingual research.
- Abstract(参考訳): URIEL+言語知識ベースは、地理的、遺伝的、タイプ的ベクトルを通じて言語を符号化することで多言語研究を支援する。
しかし、欠落した特徴タイプ、不完全な言語エントリ、限られた系譜的カバレッジという形で、データの空間性は依然として一般的である。
これによってURIEL+の言語間転送、特に低リソース言語のサポートが制限される。
本論文はURIEL+を拡張し,7,488言語における記述システム特性を表すスクリプトベクターの導入,18,710言語の追加のためのGlottologの統合,26,449言語における系統命令の拡張という3つのコントリビューションについて述べる。
これらの追加により、スクリプトベクタの機能が14%減少し、言語カバレッジが19,015言語(1,007%)向上し、インキュベーション品質のメトリクスが最大33%向上した。
言語間転送タスク(低リソース言語を中心にした)のベンチマークでは、URIEL+と比較して時折性能が異なっており、特定の設定ではパフォーマンスが最大6%向上する。
我々の進歩はURIEL+をより完全かつ包括的に多言語研究に役立てる。
関連論文リスト
- URIEL+: Enhancing Linguistic Inclusion and Usability in a Typological and Multilingual Knowledge Base [0.7012224958973079]
ELは、7970言語のための地理、系統学、およびタイプ論的ベクトル表現を提供する知識ベースである。
lang2vecツールを介してアクセス可能な4005言語のベクトル間の距離測定が含まれている。
これらの課題に対処するために、これらの制限に対処するELとlang2vecの拡張バージョンであるEL+を紹介します。
論文 参考訳(メタデータ) (2024-09-27T06:18:55Z) - A Reproducibility Study on Quantifying Language Similarity: The Impact of Missing Values in the URIEL Knowledge Base [1.7158992329478076]
本稿では,言語情報を数値ベクトルに集約する言語知識基盤ELに着目した。
分析の結果,言語距離の計算や欠落した値の処理におけるELの曖昧さが明らかになった。
我々はELが代表する31%の言語に対して,類型的特徴に関する情報を提供していないことを発見した。
論文 参考訳(メタデータ) (2024-05-17T23:53:48Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。