論文の概要: FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts
- arxiv url: http://arxiv.org/abs/2407.19173v1
- Date: Sat, 27 Jul 2024 05:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:31:05.594772
- Title: FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts
- Title(参考訳): FarSSiBERT:ペルシアの社会ネットワークインフォーマルテキストのセマンティック類似度測定のためのトランスフォーマーに基づく新しいモデル
- Authors: Seyed Mojtaba Sadjadi, Zeinab Rajabi, Leila Rabiei, Mohammad-Shahram Moin,
- Abstract要約: 本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One fundamental task for NLP is to determine the similarity between two texts and evaluate the extent of their likeness. The previous methods for the Persian language have low accuracy and are unable to comprehend the structure and meaning of texts effectively. Additionally, these methods primarily focus on formal texts, but in real-world applications of text processing, there is a need for robust methods that can handle colloquial texts. This requires algorithms that consider the structure and significance of words based on context, rather than just the frequency of words. The lack of a proper dataset for this task in the Persian language makes it important to develop such algorithms and construct a dataset for Persian text. This paper introduces a new transformer-based model to measure semantic similarity between Persian informal short texts from social networks. In addition, a Persian dataset named FarSSiM has been constructed for this purpose, using real data from social networks and manually annotated and verified by a linguistic expert team. The proposed model involves training a large language model using the BERT architecture from scratch. This model, called FarSSiBERT, is pre-trained on approximately 104 million Persian informal short texts from social networks, making it one of a kind in the Persian language. Moreover, a novel specialized informal language tokenizer is provided that not only performs tokenization on formal texts well but also accurately identifies tokens that other Persian tokenizers are unable to recognize. It has been demonstrated that our proposed model outperforms ParsBERT, laBSE, and multilingual BERT in the Pearson and Spearman's coefficient criteria. Additionally, the pre-trained large language model has great potential for use in other NLP tasks on colloquial text and as a tokenizer for less-known informal words.
- Abstract(参考訳): NLPの基本的な課題は、2つのテキスト間の類似性を決定し、それらの類似度を評価することである。
ペルシア語の以前の手法は精度が低く、テキストの構造や意味を効果的に理解できない。
さらに、これらの手法は主に形式テキストに焦点をあてるが、実際のテキスト処理の応用においては、口語テキストを扱える堅牢な方法が必要である。
これは、単に単語の頻度ではなく、文脈に基づく単語の構造と重要性を考えるアルゴリズムを必要とする。
ペルシア語では、このタスクに適切なデータセットがないため、そのようなアルゴリズムを開発し、ペルシア語のテキストのためのデータセットを構築することが重要である。
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
さらに、この目的のためにFarSSiMというペルシアのデータセットが構築され、ソーシャルネットワークの実際のデータを使用し、言語専門家チームによって手動で注釈付けされ、検証されている。
提案モデルでは,BERTアーキテクチャをゼロから使用した大規模言語モデルをトレーニングする。
FarSSiBERTと呼ばれるこのモデルは、約9100万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
さらに、フォーマルテキスト上でトークン化をうまく行うだけでなく、他のペルシアのトークン化者が認識できないトークンを正確に識別する、新しい専門用語トークン化器が提供される。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
さらに、事前学習された大きな言語モデルは、口語テキスト上の他のNLPタスクや、あまり知られていない非公式な単語のトークン化ツールとして、大きな可能性を秘めている。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Persian Slang Text Conversion to Formal and Deep Learning of Persian Short Texts on Social Media for Sentiment Classification [0.7373617024876725]
ペルシャ・スラング・コンバータ(ペルシア語: Slang Converter)は、会話テキストを形式に変換するツールである。
さまざまなソーシャルネットワークや映画のサブタイトル(会話テキストなど)から1000万件のラベルのないテキストが、教師なしモデルのトレーニングに使用されている。
ポジティブ、ネガティブ、中立なラベルを持つInstagramユーザーのコメントから6万件のテキストが、感情分類モデルをトレーニングするための教師付きデータと見なされている。
論文 参考訳(メタデータ) (2024-03-09T22:18:26Z) - FaBERT: Pre-training BERT on Persian Blogs [13.566089841138938]
FaBERTはHmBlogs corpusで事前訓練されたペルシアのBERTベースモデルである。
ペルシア語で広く使われている多様な文構造と言語様式の複雑さに対処する。
論文 参考訳(メタデータ) (2024-02-09T18:50:51Z) - PersianLLaMA: Towards Building First Persian Large Language Model [5.79461948374354]
本稿ではペルシャ語テキストとデータセットの収集に基づいて訓練されたペルシャ語モデルであるペルシャ語モデル(ペルシャ語モデル)を紹介する。
その結果、ペルシャのLLaMAは、ペルシャ語のテキストの理解と生成において、競争相手を著しく上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-12-25T12:48:55Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian [0.0]
テキストの明確化にParsBERTを組み込んだViraPartフレームワークを提案する。
最終的に、提案されたZWNJ認識モデル、句読点復元モデル、ペルシャ・エザフ構成モデルは、それぞれ96.90%、92.13%、98.50%の平均的なF1マクロスコアを実行する。
論文 参考訳(メタデータ) (2021-10-18T08:20:40Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Evaluating Input Representation for Language Identification in
Hindi-English Code Mixed Text [4.4904382374090765]
コードミックステキストは複数の言語で書かれたテキストからなる。
人は自然に現地の言語と英語のようなグローバルな言語を組み合わせる傾向がある。
本研究では,ヒンディー語と英語の混成テキストのコード混成文における言語識別に着目した。
論文 参考訳(メタデータ) (2020-11-23T08:08:09Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。