論文の概要: Abugida Normalizer and Parser for Unicode texts
- arxiv url: http://arxiv.org/abs/2306.01743v1
- Date: Thu, 11 May 2023 14:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 14:13:59.627074
- Title: Abugida Normalizer and Parser for Unicode texts
- Title(参考訳): Unicodeテキストに対する Abugida Normalizer と Parser
- Authors: Nazmuddoha Ansary, Quazi Adibur Rahman Adib, Tahsin Reasat, Sazia
Mehnaz, Asif Shahriyar Sushmit, Ahmed Imtiaz Humayun, Mohammad Mamun Or
Rashid, Farig Sadeque
- Abstract要約: 本稿では,UnicodeをベースとしたIndic言語記述方式の共通問題と非共通問題に対処するライブラリを2つ提案する。
400%の高速化を報告し、異なる言語タスクのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 1.5479271425519245
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes two libraries to address common and uncommon issues with
Unicode-based writing schemes for Indic languages. The first is a normalizer
that corrects inconsistencies caused by the encoding scheme
https://pypi.org/project/bnunicodenormalizer/ . The second is a grapheme parser
for Abugida text https://pypi.org/project/indicparser/ . Both tools are more
efficient and effective than previously used tools. We report 400% increase in
speed and ensure significantly better performance for different language model
based downstream tasks.
- Abstract(参考訳): 本稿では,Unicodeベースの言語記述方式における共通および非共通問題に対処する2つのライブラリを提案する。
1つ目は、エンコーディングスキーム https://pypi.org/project/bnunicodenormalizer/ によって生じる矛盾を修正する正規化子である。
2つ目は、abugida text https://pypi.org/project/indicparser/用のgraphemeパーサである。
どちらのツールも、以前使ったツールよりも効率的で効果的です。
我々は400%の速度向上を報告し、異なる言語モデルに基づく下流タスクにおける性能を著しく向上させる。
関連論文リスト
- MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - COMEX: A Tool for Generating Customized Source Code Representations [7.151800146054561]
COMEXは、研究者と開発者が複数のコードビューを作成し、組み合わせることを可能にするフレームワークである。
プロシージャ内スニペットとプロシージャ間スニペットの両方を使用して、メソッドレベルのスニペットとプログラムレベルのスニペットの両方を分析することができる。
これは40以上の言語をサポートする、広く使われているインクリメンタル分析ツールであるtree-sitter上に構築されている。
論文 参考訳(メタデータ) (2023-07-10T16:46:34Z) - How do different tokenizers perform on downstream tasks in scriptio
continua languages?: A case study in Japanese [4.259342268820457]
本稿では,単語間に明示的な空間が存在しないスクリプティカル連続言語において,トークン化剤が事前学習言語モデル(PLM)の下流性能に与える影響について検討する。
このような言語のトークン化子は、しばしば形態解析器とサブワードトークン化器から構成され、全ての可能なペアについて包括的な研究を行う必要がある。
我々は、幅広いトークンのセットを訓練し、それぞれを用いてPLMを構築し、幅広いタスクで下流のパフォーマンスを測定する。
論文 参考訳(メタデータ) (2023-06-16T01:22:32Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [75.08995072899594]
コード生成のための評価指標であるCodeBERTScoreを提案する。
CodeBERTScoreは生成されたコードの前に入力された自然言語をエンコードする。
CodeBERTScoreは、既存のすべての指標よりも、人間の嗜好と機能的正しさとの相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - Contextual Hate Speech Detection in Code Mixed Text using Transformer
Based Approaches [0.0]
我々は,Twitterのコード混在テキストにおけるヘイトスピーチ検出の自動化手法を提案する。
通常のアプローチでは、テキストを個別に分析するが、親ツイートの形でコンテンツテキストも活用する。
独立表現を用いたデュアルエンコーダ方式により性能が向上することを示す。
論文 参考訳(メタデータ) (2021-10-18T14:05:36Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - HPCC-YNU at SemEval-2020 Task 9: A Bilingual Vector Gating Mechanism for
Sentiment Analysis of Code-Mixed Text [10.057804086733576]
本稿では,バイリンガルなベクトルゲーティング機構をバイリンガルなリソースに利用してタスクを完了させるシステムを提案する。
私たちはパングリッシュで5位、ヒングリッシュで19位を獲得しました。
論文 参考訳(メタデータ) (2020-10-10T08:02:15Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - K{\o}psala: Transition-Based Graph Parsing via Efficient Training and
Effective Encoding [13.490365811869719]
We present Kopsala, the Copenhagen-Uppsala system for the Enhanced Universal Dependencies Shared Task at IWPT 2020。
当社のシステムは,拡張解析以外のすべてを対象として,既製のモデルで構成されたパイプラインであり,後者はCheなどから適応した遷移グラフである。
平均的なELASによると、統一パイプラインはRepresentation ParsingとEnhanced Universal Dependenciesの両方に有効であることを示す。
論文 参考訳(メタデータ) (2020-05-25T13:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。