論文の概要: URIEL+: Enhancing Linguistic Inclusion and Usability in a Typological and Multilingual Knowledge Base
- arxiv url: http://arxiv.org/abs/2409.18472v2
- Date: Thu, 19 Dec 2024 17:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:28:31.019521
- Title: URIEL+: Enhancing Linguistic Inclusion and Usability in a Typological and Multilingual Knowledge Base
- Title(参考訳): URIEL+: 言語学的・多言語的知識ベースにおける言語包摂性とユーザビリティの強化
- Authors: Aditya Khan, Mason Shipton, David Anugraha, Kaiyao Duan, Phuong H. Hoang, Eric Khiu, A. Seza Doğruöz, En-Shiun Annie Lee,
- Abstract要約: ELは、7970言語のための地理、系統学、およびタイプ論的ベクトル表現を提供する知識ベースである。
lang2vecツールを介してアクセス可能な4005言語のベクトル間の距離測定が含まれている。
これらの課題に対処するために、これらの制限に対処するELとlang2vecの拡張バージョンであるEL+を紹介します。
- 参考スコア(独自算出の注目度): 0.7012224958973079
- License:
- Abstract: URIEL is a knowledge base offering geographical, phylogenetic, and typological vector representations for 7970 languages. It includes distance measures between these vectors for 4005 languages, which are accessible via the lang2vec tool. Despite being frequently cited, URIEL is limited in terms of linguistic inclusion and overall usability. To tackle these challenges, we introduce URIEL+, an enhanced version of URIEL and lang2vec that addresses these limitations. In addition to expanding typological feature coverage for 2898 languages, URIEL+ improves the user experience with robust, customizable distance calculations to better suit the needs of users. These upgrades also offer competitive performance on downstream tasks and provide distances that better align with linguistic distance studies.
- Abstract(参考訳): URIELは、7970言語のための地理的、系統的、およびタイプ的ベクトル表現を提供する知識ベースである。
lang2vecツールを介してアクセス可能な4005言語のベクトル間の距離測定が含まれている。
URIELはしばしば引用されているが、言語的包摂性や全体的なユーザビリティの点で制限されている。
これらの課題に対処するために、これらの制限に対処するURIELとlang2vecの拡張バージョンであるURIEL+を紹介します。
URIEL+は2898言語の特徴カバレッジの拡大に加えて、ユーザのニーズに合った堅牢でカスタマイズ可能な距離計算によって、ユーザエクスペリエンスを改善している。
これらのアップグレードは下流のタスクの競争性能も提供し、言語的距離の研究とよく一致した距離を提供する。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Multilingual De-Duplication Strategies: Applying scalable similarity search with monolingual & multilingual embedding models [0.0]
本稿では,高度NLPツールを用いた多言語テキストデータの重複解消について述べる。
我々は、mpnetと多言語埋め込みモデル(distiluse)を併用し、英語への翻訳を含む2段階の手法の比較を行った。
論文 参考訳(メタデータ) (2024-06-19T16:48:14Z) - A Reproducibility Study on Quantifying Language Similarity: The Impact of Missing Values in the URIEL Knowledge Base [1.7158992329478076]
本稿では,言語情報を数値ベクトルに集約する言語知識基盤ELに着目した。
分析の結果,言語距離の計算や欠落した値の処理におけるELの曖昧さが明らかになった。
我々はELが代表する31%の言語に対して,類型的特徴に関する情報を提供していないことを発見した。
論文 参考訳(メタデータ) (2024-05-17T23:53:48Z) - SUTRA: Scalable Multilingual Language Model Architecture [5.771289785515227]
我々は50以上の言語でテキストの理解、推論、生成が可能な多言語大言語モデルアーキテクチャSUTRAを紹介する。
広範な評価により、SUTRA は GPT-3.5 や Llama2 といった既存のモデルを 20-30% 上回って、主要なMultitask Language Understanding (MMLU) ベンチマークを上回ります。
以上の結果から,SUTRAは多言語モデル機能において重要なギャップを埋めるだけでなく,AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することが示唆された。
論文 参考訳(メタデータ) (2024-05-07T20:11:44Z) - LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation [21.980770995466134]
言語間で整列したウィキペディアのエンティティ名を利用する言語適応チューニング手法であるLEIAを紹介する。
この方法は、ターゲット言語コーパスを英語のエンティティ名で拡張し、左から右への言語モデリングを用いてモデルを訓練することを含む。
論文 参考訳(メタデータ) (2024-02-18T07:24:34Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。