論文の概要: Evaluating Various Tokenizers for Arabic Text Classification
- arxiv url: http://arxiv.org/abs/2106.07540v1
- Date: Mon, 14 Jun 2021 16:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 20:10:12.059572
- Title: Evaluating Various Tokenizers for Arabic Text Classification
- Title(参考訳): アラビア文字分類のための様々なトケナイザの評価
- Authors: Zaid Alyafeai, Maged S. Al-shaibani, Mustafa Ghaleb, Irfan Ahmad
- Abstract要約: アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
- 参考スコア(独自算出の注目度): 4.110108749051656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The first step in any NLP pipeline is learning word vector representations.
However, given a large text corpus, representing all the words is not
efficient. In the literature, many tokenization algorithms have emerged to
tackle this problem by creating subwords which in turn limits the vocabulary
size in any text corpus. However such algorithms are mostly language-agnostic
and lack a proper way of capturing meaningful tokens. Not to mention the
difficulty of evaluating such techniques in practice. In this paper, we
introduce three new tokenization algorithms for Arabic and compare them to
three other baselines using unsupervised evaluations. In addition to that, we
compare all the six algorithms by evaluating them on three tasks which are
sentiment analysis, news classification and poetry classification. Our
experiments show that the performance of such tokenization algorithms depends
on the size of the dataset, type of the task, and the amount of morphology that
exists in the dataset.
- Abstract(参考訳): NLPパイプラインの最初のステップは、ワードベクトル表現を学習することだ。
しかし、大きなテキストコーパスがあると、すべての単語を表現するのは効率的ではない。
文献では、全てのテキストコーパスの語彙サイズを制限するサブワードを作成することで、この問題に取り組むために多くのトークン化アルゴリズムが登場している。
しかし、そのようなアルゴリズムは主に言語に依存しず、意味のあるトークンをキャプチャする適切な方法がない。
このようなテクニックを実際に評価することの難しさは言うまでもない。
本稿ではアラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
それに加えて,感情分析,ニュース分類,詩分類という3つのタスクで6つのアルゴリズムを比較して評価した。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
関連論文リスト
- Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Greed is All You Need: An Evaluation of Tokenizer Inference Methods [4.300681074103876]
4つの異なるアルゴリズムと3つの語彙サイズにまたがる7つのトークン化手法の制御解析を行う。
我々は,最もよく使われているトークン化剤に対して,グリーディ推論が驚くほどよく機能し,最近導入された文脈的にインフォームドされたトークン化剤であるSaGeが,形態的アライメントにおいて他の全てより優れていることを示す。
論文 参考訳(メタデータ) (2024-03-02T19:01:40Z) - Analyzing Cognitive Plausibility of Subword Tokenization [9.510439539246846]
サブワードトークン化はトークン化のデファクトスタンダードになっている。
本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T08:25:37Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - A comparison of several AI techniques for authorship attribution on
Romanian texts [0.0]
複数の著者が書いた文章を分類するAI技術の比較を行う。
また、ルーマニア語で書かれたテキストからなる新しいデータセットを導入し、アルゴリズムを実行した。
論文 参考訳(メタデータ) (2022-11-09T20:24:48Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - Improving Tokenisation by Alternative Treatment of Spaces [7.596737214110957]
空間は常に個々のトークンとして扱われる別のトークン化アプローチを実験する。
修正アルゴリズムにより、下流のNLPタスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2022-04-08T13:22:30Z) - ARTH: Algorithm For Reading Text Handily -- An AI Aid for People having
Word Processing Issues [0.0]
「ARTH」は、「テキストを楽に読み、理解する」必要性を満たすインテリジェントな方法であるアルゴリズムの自己学習セットです。
技術「ARTH」は、語彙が苦手な人や単語処理の問題を持つ人々の間で読むことの喜びの復活に焦点を当てています。
論文 参考訳(メタデータ) (2021-01-23T09:39:45Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。