論文の概要: Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for
Classifying Arabic Speech Acts on Twitter
- arxiv url: http://arxiv.org/abs/2401.17373v1
- Date: Tue, 30 Jan 2024 19:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:41:36.131401
- Title: Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for
Classifying Arabic Speech Acts on Twitter
- Title(参考訳): アラビア語のツイート法:Twitter上のアラビア語の音声行為を分類するための事前訓練されたトランスフォーマーモデル
- Authors: Khadejaa Alshehri, Areej Alhothali and Nahed Alowidi
- Abstract要約: 本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。
本研究では,BERTに基づく重み付きアンサンブル学習手法を提案する。
その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。
- 参考スコア(独自算出の注目度): 0.32885740436059047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech acts are a speakers actions when performing an utterance within a
conversation, such as asking, recommending, greeting, or thanking someone,
expressing a thought, or making a suggestion. Understanding speech acts helps
interpret the intended meaning and actions behind a speakers or writers words.
This paper proposes a Twitter dialectal Arabic speech act classification
approach based on a transformer deep learning neural network. Twitter and
social media, are becoming more and more integrated into daily life. As a
result, they have evolved into a vital source of information that represents
the views and attitudes of their users. We proposed a BERT based weighted
ensemble learning approach to integrate the advantages of various BERT models
in dialectal Arabic speech acts classification. We compared the proposed model
against several variants of Arabic BERT models and sequence-based models. We
developed a dialectal Arabic tweet act dataset by annotating a subset of a
large existing Arabic sentiment analysis dataset (ASAD) based on six speech act
categories. We also evaluated the models on a previously developed Arabic Tweet
Act dataset (ArSAS). To overcome the class imbalance issue commonly observed in
speech act problems, a transformer-based data augmentation model was
implemented to generate an equal proportion of speech act categories. The
results show that the best BERT model is araBERTv2-Twitter models with a
macro-averaged F1 score and an accuracy of 0.73 and 0.84, respectively. The
performance improved using a BERT-based ensemble method with a 0.74 and 0.85
averaged F1 score and accuracy on our dataset, respectively.
- Abstract(参考訳): 発話行為とは、会話の中で発話を行う際に、質問、推薦、挨拶、感謝、思考の表現、提案などを行う際の話者の行為である。
言語行動を理解することは、話者や作家の言葉の背後にある意図された意味や行動を理解するのに役立つ。
本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。
Twitterやソーシャルメディアは、日々の生活にますます統合されつつある。
結果として、彼らはユーザーの見解や態度を表す重要な情報源へと進化してきた。
本研究では,アラビア語音声行為分類における様々なbertモデルの利点を統合するために,bertを用いた重み付きアンサンブル学習手法を提案する。
提案モデルとアラビア語 bert モデルおよびシーケンスベースモデルの比較を行った。
既存のアラビア語感情分析データセット (asad) のサブセットを6つの発話行動カテゴリにアノテートすることにより, 方言的アラビア語ツイート行動データセットを開発した。
また,以前開発されたアラビア語ツイートアクトデータセット (arsas) 上で評価を行った。
音声行為問題でよく見られるクラス不均衡問題を克服するため,トランスフォーマーに基づくデータ拡張モデルを導入し,音声行為カテゴリの等比を生成する。
その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。
BERTに基づくアンサンブル法では,平均F1スコアと精度をそれぞれ0.74と0.85で改善した。
関連論文リスト
- On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Offensive Language and Hate Speech Detection with Deep Learning and
Transfer Learning [1.77356577919977]
我々は、ツイートを自動的に3つのクラスに分類するアプローチを提案する。
我々は、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールを作成する。
論文 参考訳(メタデータ) (2021-08-06T20:59:47Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Pre-Training BERT on Arabic Tweets: Practical Considerations [11.087099497830552]
トレーニングセットのサイズ、形式と非公式のアラビア語の混合、言語前処理の5つのBERTモデルを事前訓練した。
すべてアラビア方言とソーシャルメディアをサポートすることを意図している。
新しいモデルは、いくつかの下流タスクで最新の結果を達成します。
論文 参考訳(メタデータ) (2021-02-21T20:51:33Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。