論文の概要: evaluating bert and parsbert for analyzing persian advertisement data
- arxiv url: http://arxiv.org/abs/2305.02426v1
- Date: Wed, 3 May 2023 20:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 17:44:38.542828
- Title: evaluating bert and parsbert for analyzing persian advertisement data
- Title(参考訳): ペルシャ広告データ分析のためのbertとparsbertの評価
- Authors: Ali Mehrban, Pegah Ahadian
- Abstract要約: この論文は、イランで製品やサービスを売買するオンラインマーケットプレイスであるDivarの例を用いている。
それは、DivarのWebサイトに掲載される自動車販売広告の割合を予測するためのコンペティションを提示している。
このデータセットはペルシア語のテキストデータの豊富なソースを提供するため、著者らは、ペルシア語のテキストを処理するように設計されたPythonライブラリであるHazmライブラリと、2つの最先端言語モデルであるmBERTとParsBERTを使用して分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper discusses the impact of the Internet on modern trading and the
importance of data generated from these transactions for organizations to
improve their marketing efforts. The paper uses the example of Divar, an online
marketplace for buying and selling products and services in Iran, and presents
a competition to predict the percentage of a car sales ad that would be
published on the Divar website. Since the dataset provides a rich source of
Persian text data, the authors use the Hazm library, a Python library designed
for processing Persian text, and two state-of-the-art language models, mBERT
and ParsBERT, to analyze it. The paper's primary objective is to compare the
performance of mBERT and ParsBERT on the Divar dataset. The authors provide
some background on data mining, Persian language, and the two language models,
examine the dataset's composition and statistical features, and provide details
on their fine-tuning and training configurations for both approaches. They
present the results of their analysis and highlight the strengths and
weaknesses of the two language models when applied to Persian text data. The
paper offers valuable insights into the challenges and opportunities of working
with low-resource languages such as Persian and the potential of advanced
language models like BERT for analyzing such data. The paper also explains the
data mining process, including steps such as data cleaning and normalization
techniques. Finally, the paper discusses the types of machine learning
problems, such as supervised, unsupervised, and reinforcement learning, and the
pattern evaluation techniques, such as confusion matrix. Overall, the paper
provides an informative overview of the use of language models and data mining
techniques for analyzing text data in low-resource languages, using the example
of the Divar dataset.
- Abstract(参考訳): 本稿では,インターネットが現代取引に与える影響と,これらの取引から生成されたデータの重要性について論じる。
この論文は、イランで商品やサービスを売買するオンラインマーケットプレイスであるdivarの例を使用しており、divarのウェブサイトで発行される自動車販売広告の割合を予測するためのコンペティションを提示している。
このデータセットはペルシア語のテキストデータの豊富なソースを提供するため、著者らは、ペルシア語のテキストを処理するように設計されたPythonライブラリであるHazmライブラリと、2つの最先端言語モデルであるmBERTとParsBERTを使用して分析する。
論文の主な目的は、Divarデータセット上でmBERTとParsBERTのパフォーマンスを比較することである。
著者らは、データマイニング、ペルシア語、および2つの言語モデルに関する背景を提供し、データセットの構成と統計的特徴を調べ、両アプローチの微調整とトレーニング構成の詳細を提供する。
彼らは分析の結果を示し、ペルシア語のテキストデータに適用した場合の2つの言語モデルの強みと弱みを強調した。
この論文は、ペルシア語のような低リソース言語で作業することの課題と機会、そしてそのようなデータを分析するためにBERTのような先進言語モデルの可能性についての貴重な洞察を提供する。
また,データクリーニングや正規化といったステップを含む,データマイニングのプロセスについても解説する。
最後に,教師付き,教師なし,強化学習などの機械学習問題の種類と,混乱行列などのパターン評価手法について述べる。
本稿は、Divarデータセットの例を用いて、低リソース言語におけるテキストデータを解析するための言語モデルとデータマイニング技術の利用に関する情報的概要を提供する。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - Multi-dimensional data refining strategy for effective fine-tuning LLMs [2.67766280323297]
本稿では,ベトナム語の微調整モデルに適したクロールおよび精錬時に学んだ教訓について述べる。
本稿では、既存のデータセットを英語で活用し、生成AIツールの助けを借りて、カスタマイズされたデータクローリングスクリプトを開発する多次元戦略を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:50:43Z) - Studying the impacts of pre-training using ChatGPT-generated text on
downstream tasks [0.0]
本研究の目的は,言語モデルの事前学習における人工テキストの影響を検討することである。
我々は、CNN/DailyMailのニュース記事を用いて事前学習したRoBERTaと、同じ記事をトレーニングに用いたChatGPTの比較分析を行った。
事前学習における人工テキストの利用は、下流作業におけるモデルの性能や性別の偏りに有意な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-09-02T12:56:15Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。