Fugu-MT 論文翻訳(概要): Abugida Normalizer and Parser for Unicode texts

論文の概要: Abugida Normalizer and Parser for Unicode texts

arxiv url: http://arxiv.org/abs/2306.01743v1
Date: Thu, 11 May 2023 14:34:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-11 14:13:59.627074
Title: Abugida Normalizer and Parser for Unicode texts
Title（参考訳）: Unicodeテキストに対する Abugida Normalizer と Parser
Authors: Nazmuddoha Ansary, Quazi Adibur Rahman Adib, Tahsin Reasat, Sazia Mehnaz, Asif Shahriyar Sushmit, Ahmed Imtiaz Humayun, Mohammad Mamun Or Rashid, Farig Sadeque
Abstract要約: 本稿では,UnicodeをベースとしたIndic言語記述方式の共通問題と非共通問題に対処するライブラリを2つ提案する。 400%の高速化を報告し、異なる言語タスクのパフォーマンスを向上させる。
参考スコア（独自算出の注目度）: 1.5479271425519245
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper proposes two libraries to address common and uncommon issues with Unicode-based writing schemes for Indic languages. The first is a normalizer that corrects inconsistencies caused by the encoding scheme https://pypi.org/project/bnunicodenormalizer/ . The second is a grapheme parser for Abugida text https://pypi.org/project/indicparser/ . Both tools are more efficient and effective than previously used tools. We report 400% increase in speed and ensure significantly better performance for different language model based downstream tasks.
Abstract（参考訳）: 本稿では,Unicodeベースの言語記述方式における共通および非共通問題に対処する2つのライブラリを提案する。 1つ目は、エンコーディングスキーム https://pypi.org/project/bnunicodenormalizer/ によって生じる矛盾を修正する正規化子である。 2つ目は、abugida text https://pypi.org/project/indicparser/用のgraphemeパーサである。どちらのツールも、以前使ったツールよりも効率的で効果的です。我々は400%の速度向上を報告し、異なる言語モデルに基づく下流タスクにおける性能を著しく向上させる。

関連論文リスト

Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文参考訳（メタデータ） (2025-08-28T20:48:38Z)
Splintering Nonconcatenative Languages for Better Tokenization [4.496923806879088]
本稿では,テキストを線形形式に再構成する前処理ステップであるSPLINTERを提案する。我々は、ヘブライ語、アラビア語、マレー語におけるトークン語彙を評価する本質的な尺度を用いて、そのメリットを実証する。
論文参考訳（メタデータ） (2025-03-18T17:11:09Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Egalitarian Language Representation in Language Models: It All Begins with Tokenizers [0.0]
すべてのトークンライザが、Tamil、Sinhala、Hindiといった複雑なスクリプト言語に対して公正な表現を提供するわけではないことを示す。本稿では,Grapheme Pair と呼ばれるグラフエムを組み込むことにより,Byte Pair アルゴリズムの改良を提案する。実験の結果, 文字抽出は複雑なスクリプトに対して, バイトレベルのトークン化器よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-09-17T19:05:37Z)
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。 PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文参考訳（メタデータ） (2024-06-11T10:06:53Z)
HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition [47.86479271322264]
我々は,漢字の自然的階層性を利用した,新規で軽量なコードブックであるHierCodeを提案する。 HierCodeは階層的なバイナリツリーエンコーディングとプロトタイプ学習を活用して、各文字に特徴的な情報表現を生成するマルチホットエンコーディング戦略を採用している。このアプローチは、共有ラジカルと構造を利用してOOV文字のゼロショット認識を促進するだけでなく、視覚的特徴と類似性を計算することでラインレベルの認識タスクも優れている。
論文参考訳（メタデータ） (2024-03-20T17:20:48Z)
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。 MYTEは99の言語すべてに対して短いエンコーディングを生成する。これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文参考訳（メタデータ） (2024-03-15T21:21:11Z)
Machine Translation by Projecting Text into the Same Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。提案手法を類似言語対の実験により検証する。また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文参考訳（メタデータ） (2023-05-21T06:46:33Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。自然言語処理(NLP)の状況に注目する。ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文参考訳（メタデータ） (2022-10-21T21:59:44Z)
edATLAS: An Efficient Disambiguation Algorithm for Texting in Languages with Abugida Scripts [0.0]
アブティダ(abugida)は、各音節を単一の子音またはタイポグラフィーのリガチュアで表現する音素表記システムである。本稿では, あいまいな表現アルゴリズムを提案し, バグダ記述システムを用いた2つの新しい入力方式でその有用性を示す。ヒンディー語、ベンガル語、タイ語での入力速度は19.49%、25.13%、14.89%向上した。
論文参考訳（メタデータ） (2021-01-05T03:16:34Z)
Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文参考訳（メタデータ） (2020-10-02T18:31:45Z)
A Large Multi-Target Dataset of Common Bengali Handwritten Graphemes [1.009810782568186]
そこで本稿では, 単語を線形に分割するラベリング手法を提案する。データセットには、1295のユニークなベンガルグラフエムの411kのキュレートされたサンプルが含まれている。このデータセットは、Kaggleの公開手書きグラフ分類チャレンジの一部として、オープンソースとして公開されている。
論文参考訳（メタデータ） (2020-10-01T01:51:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。