論文の概要: Evaluating Persian Tokenizers
- arxiv url: http://arxiv.org/abs/2202.10879v1
- Date: Tue, 22 Feb 2022 13:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 15:04:26.748543
- Title: Evaluating Persian Tokenizers
- Title(参考訳): ペルシャのトケナイザーの評価
- Authors: Danial Kamali, Behrooz Janfada, Mohammad Ebrahim Shenasa, Behrouz
Minaei-Bidgoli
- Abstract要約: この記事ではペルシャ語で最も広く使われているトークンーエーザによる新しい研究を紹介する。
単純なアルゴリズムと事前にタグ付けされたペルシャの依存関係データセットを使用して、ペルシャのテキストのパフォーマンスを比較し評価する。
F1-Scoreでトークン化剤を評価した後、F1スコア98.97%のバウンドモルヒムを固定したFarsi VerbとHazmのハイブリッド版が最高の性能を示した。
- 参考スコア(独自算出の注目度): 6.10917825357379
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tokenization plays a significant role in the process of lexical analysis.
Tokens become the input for other natural language processing tasks, like
semantic parsing and language modeling. Natural Language Processing in Persian
is challenging due to Persian's exceptional cases, such as half-spaces. Thus,
it is crucial to have a precise tokenizer for Persian. This article provides a
novel work by introducing the most widely used tokenizers for Persian and
comparing and evaluating their performance on Persian texts using a simple
algorithm with a pre-tagged Persian dependency dataset. After evaluating
tokenizers with the F1-Score, the hybrid version of the Farsi Verb and Hazm
with bounded morphemes fixing showed the best performance with an F1 score of
98.97%.
- Abstract(参考訳): トークン化は語彙分析のプロセスにおいて重要な役割を果たす。
トークンは意味解析や言語モデリングといった他の自然言語処理タスクの入力となる。
ペルシア語の自然言語処理は、ハーフスペースのようなペルシャの例外的なケースのために困難である。
したがって、ペルシャの正確なトークン化が不可欠である。
この記事では、ペルシャ語で最も広く使われているトークン化剤を導入し、ペルシャ語のテキストのパフォーマンスを、タグ付きペルシャの依存性データセットによる単純なアルゴリズムを用いて比較、評価することで、新しい研究を提供する。
F1-Scoreでトークン化剤を評価した後、F1スコア98.97%のバウンドモルヒムを固定したFarsi VerbとHazmのハイブリッド版が最高の性能を示した。
関連論文リスト
- FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts [0.0]
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
論文 参考訳(メタデータ) (2024-07-27T05:04:49Z) - PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis [0.0]
本研究では,ディープラーニング技術と音声解析をシームレスに統合したペルシャ語スペル訂正システムを提案する。
提案手法は,文脈分析と音韻的洞察を効果的に組み合わせ,非単語と実単語の綴り誤りを正確に補正する。
広帯域データセットの徹底的な評価により,既存手法と比較してシステムの性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-07-20T07:41:04Z) - PersianLLaMA: Towards Building First Persian Large Language Model [5.79461948374354]
本稿ではペルシャ語テキストとデータセットの収集に基づいて訓練されたペルシャ語モデルであるペルシャ語モデル(ペルシャ語モデル)を紹介する。
その結果、ペルシャのLLaMAは、ペルシャ語のテキストの理解と生成において、競争相手を著しく上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-12-25T12:48:55Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian [0.0]
テキストの明確化にParsBERTを組み込んだViraPartフレームワークを提案する。
最終的に、提案されたZWNJ認識モデル、句読点復元モデル、ペルシャ・エザフ構成モデルは、それぞれ96.90%、92.13%、98.50%の平均的なF1マクロスコアを実行する。
論文 参考訳(メタデータ) (2021-10-18T08:20:40Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach [0.0]
この研究は、ペルシャのユーザー生成テキストコンテンツがもたらすハードルに対処するために機械学習ベースのアプローチを適用します。
提示されたアプローチは、ペルシア語の感情分析を行うために機械翻訳データセットを使用する。
実験の結果は、これまでの試みとは対照的に、有望な最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-01-20T11:57:59Z) - Predicting the Humorousness of Tweets Using Gaussian Process Preference
Learning [56.18809963342249]
本稿では,人間の嗜好判断と言語アノテーションの自動生成を利用して,短文のユーモラスさのランク付けと評価を学習する確率論的アプローチを提案する。
本研究は, HAHA@IberLEF 2019データにおける数値スコアの変換と, 提案手法に必要な判定アノテーションの相互変換から生じる問題点について報告する。
論文 参考訳(メタデータ) (2020-08-03T13:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。