論文の概要: GlotScript: A Resource and Tool for Low Resource Writing System
Identification
- arxiv url: http://arxiv.org/abs/2309.13320v1
- Date: Sat, 23 Sep 2023 09:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 20:44:59.073266
- Title: GlotScript: A Resource and Tool for Low Resource Writing System
Identification
- Title(参考訳): GlotScript: 低リソース記述システム識別のためのリソースとツール
- Authors: Amir Hossein Kargaran, Fran\c{c}ois Yvon, Hinrich Sch\"utze
- Abstract要約: GlotScriptは、低リソースの書き込みシステム識別のためのオープンリソースである。
GlotScript-Rは7000以上の言語に対して証明済みの書記システムを提供している。
GlotScript-Tは161のUnicode 15.0スクリプトをカバーする記述システム識別ツールである。
- 参考スコア(独自算出の注目度): 12.386703061096545
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present GlotScript, an open resource and tool for low resource writing
system identification. GlotScript-R is a resource that provides the attested
writing systems for more than 7,000 languages. It is compiled by aggregating
information from existing writing system resources. GlotScript-T is a writing
system identification tool that covers all 161 Unicode 15.0 scripts. For an
input text, it returns its script distribution where scripts are identified by
ISO 15924 codes. We also present two use cases for GlotScript. First, we
demonstrate that GlotScript supports cleaning multilingual corpora such as mC4
and OSCAR. Second, we analyze the tokenization of a number of language models
such as GPT-4 using GlotScript and provide insights on the coverage of low
resource scripts and languages by each language model. We hope that GlotScript
will become a useful resource for work on low resource languages in the NLP
community. GlotScript-R and GlotScript-T are available at
https://github.com/cisnlp/GlotScript.
- Abstract(参考訳): 本稿では,低リソース記述システム識別のためのオープンリソースおよびツールであるGlotScriptを紹介する。
GlotScript-Rは7000以上の言語に対して証明済みの書き込みシステムを提供するリソースである。
既存の書き込みシステムリソースから情報を集約してコンパイルする。
GlotScript-Tは161のUnicode 15.0スクリプトをカバーする記述システム識別ツールである。
入力テキストに対して、ISO 15924コードでスクリプトが識別されるスクリプト配布を返却する。
GlotScriptのユースケースは2つあります。
まず,GlotScriptがmC4やOSCARなどの多言語コーパスのクリーニングをサポートすることを示す。
第2に,GlotScript を用いた GPT-4 などの言語モデルのトークン化を解析し,各言語モデルによる低リソーススクリプトおよび言語カバレッジに関する洞察を提供する。
私たちはGlotScriptがNLPコミュニティで低リソース言語に取り組む上で有用なリソースになることを望んでいます。
GlotScript-RとGlotScript-Tはhttps://github.com/cisnlp/GlotScriptで入手できる。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - TransliCo: A Contrastive Learning Framework to Address the Script
Barrier in Multilingual Pretrained Language Models [17.018071714895555]
7000以上の言語を記述した293のスクリプトがある。
様々な理由から、多くの近縁言語は異なるスクリプトを使用しており、語彙重なりを通じて言語間知識を学ぶのに多言語事前学習言語モデル(mPLM)では困難である。
本稿では,翻訳コントラストモデリング(TCM)を組み込んだTransliCoを提案する。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - GlotLID: Language Identification for Low-Resource Languages [13.59006556096416]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - GAS-Net: Generative Artistic Style Neural Networks for Fonts [8.569974263629218]
このプロジェクトはAGIS-Netをベースとした数発のクロスランガルフォントジェネレータを開発することを目的としている。
我々のアプローチには、エンコーダと損失関数の再設計が含まれる。
提案手法は,複数の言語とデータセットで検証する。
論文 参考訳(メタデータ) (2022-12-06T11:23:16Z) - VScript: Controllable Script Generation with Audio-Visual Presentation [56.17400243061659]
VScriptは、対話やシーン記述を含む完全なスクリプトを生成するコントロール可能なパイプラインである。
我々は階層構造を採用し、プロットを生成し、次にスクリプトとその音声視覚提示を行う。
実験の結果,本手法は,自動評価と人的評価の両方において,ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-01T09:43:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Handwritten Script Identification from Text Lines [38.1188690493442]
テキスト行レベルで手書き文書からスクリプトを識別する頑健な手法を提案する。
チェインコードヒストグラム(CCH)と離散フーリエ変換(DFT)を用いて抽出した特徴に基づく。
提案手法は、グジャラート、カンナダ、マラヤラム、オリヤ、タミル、テルグ、ウルドゥーの7文字で書かれた800行の手書きのテキストに対して、ローマ文字とともに実験されている。
論文 参考訳(メタデータ) (2020-09-16T02:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。