論文の概要: GlotScript: A Resource and Tool for Low Resource Writing System Identification
- arxiv url: http://arxiv.org/abs/2309.13320v2
- Date: Wed, 27 Mar 2024 14:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 23:02:36.330409
- Title: GlotScript: A Resource and Tool for Low Resource Writing System Identification
- Title(参考訳): GlotScript: 低リソース記述システム識別のためのリソースとツール
- Authors: Amir Hossein Kargaran, François Yvon, Hinrich Schütze,
- Abstract要約: GlotScriptは、低リソースの書き込みシステム識別のためのオープンリソースである。
GlotScript-Rは7000以上の言語に対して証明済みの書記システムを提供している。
GlotScript-Tは161のUnicode 15.0スクリプトをカバーする記述システム識別ツールである。
- 参考スコア(独自算出の注目度): 53.56700754408902
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present GlotScript, an open resource and tool for low resource writing system identification. GlotScript-R is a resource that provides the attested writing systems for more than 7,000 languages. It is compiled by aggregating information from existing writing system resources. GlotScript-T is a writing system identification tool that covers all 161 Unicode 15.0 scripts. For an input text, it returns its script distribution where scripts are identified by ISO 15924 codes. We also present two use cases for GlotScript. First, we demonstrate that GlotScript can help cleaning multilingual corpora such as mC4 and OSCAR. Second, we analyze the tokenization of a number of language models such as GPT-4 using GlotScript and provide insights on the coverage of low resource scripts and languages by each language model. We hope that GlotScript will become a useful resource for work on low resource languages in the NLP community. GlotScript-R and GlotScript-T are available at https://github.com/cisnlp/GlotScript.
- Abstract(参考訳): 本稿では,低リソース記述システム識別のためのオープンリソースおよびツールであるGlotScriptを紹介する。
GlotScript-Rは7000以上の言語に対して証明済みの書記システムを提供するリソースである。
既存の書記システムリソースから情報を集約してコンパイルする。
GlotScript-Tは161のUnicode 15.0スクリプトをカバーする記述システム識別ツールである。
入力テキストに対して、ISO 15924コードでスクリプトが識別されるスクリプト配布を返却する。
また、GlotScriptのユースケースを2つ提示します。
まず、GlotScriptがmC4やOSCARといった多言語コーパスのクリーニングに役立つことを実証する。
第2に,GlotScript を用いた GPT-4 などの言語モデルのトークン化を解析し,各言語モデルによる低リソーススクリプトおよび言語カバレッジに関する洞察を提供する。
私たちは、GlotScriptがNLPコミュニティで低リソース言語に取り組む上で有用なリソースになることを望んでいます。
GlotScript-RとGlotScript-Tはhttps://github.com/cisnlp/GlotScriptで入手できる。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。
いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。
単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文 参考訳(メタデータ) (2024-06-25T19:23:42Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - GAS-Net: Generative Artistic Style Neural Networks for Fonts [8.569974263629218]
このプロジェクトはAGIS-Netをベースとした数発のクロスランガルフォントジェネレータを開発することを目的としている。
我々のアプローチには、エンコーダと損失関数の再設計が含まれる。
提案手法は,複数の言語とデータセットで検証する。
論文 参考訳(メタデータ) (2022-12-06T11:23:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Handwritten Script Identification from Text Lines [38.1188690493442]
テキスト行レベルで手書き文書からスクリプトを識別する頑健な手法を提案する。
チェインコードヒストグラム(CCH)と離散フーリエ変換(DFT)を用いて抽出した特徴に基づく。
提案手法は、グジャラート、カンナダ、マラヤラム、オリヤ、タミル、テルグ、ウルドゥーの7文字で書かれた800行の手書きのテキストに対して、ローマ文字とともに実験されている。
論文 参考訳(メタデータ) (2020-09-16T02:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。