Fugu-MT 論文翻訳(概要): Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for Classifying Arabic Speech Acts on Twitter

論文の概要: Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for Classifying Arabic Speech Acts on Twitter

arxiv url: http://arxiv.org/abs/2401.17373v1
Date: Tue, 30 Jan 2024 19:01:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 16:41:36.131401
Title: Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for Classifying Arabic Speech Acts on Twitter
Title（参考訳）: アラビア語のツイート法:Twitter上のアラビア語の音声行為を分類するための事前訓練されたトランスフォーマーモデル
Authors: Khadejaa Alshehri, Areej Alhothali and Nahed Alowidi
Abstract要約: 本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。本研究では,BERTに基づく重み付きアンサンブル学習手法を提案する。その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。
参考スコア（独自算出の注目度）: 0.32885740436059047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech acts are a speakers actions when performing an utterance within a conversation, such as asking, recommending, greeting, or thanking someone, expressing a thought, or making a suggestion. Understanding speech acts helps interpret the intended meaning and actions behind a speakers or writers words. This paper proposes a Twitter dialectal Arabic speech act classification approach based on a transformer deep learning neural network. Twitter and social media, are becoming more and more integrated into daily life. As a result, they have evolved into a vital source of information that represents the views and attitudes of their users. We proposed a BERT based weighted ensemble learning approach to integrate the advantages of various BERT models in dialectal Arabic speech acts classification. We compared the proposed model against several variants of Arabic BERT models and sequence-based models. We developed a dialectal Arabic tweet act dataset by annotating a subset of a large existing Arabic sentiment analysis dataset (ASAD) based on six speech act categories. We also evaluated the models on a previously developed Arabic Tweet Act dataset (ArSAS). To overcome the class imbalance issue commonly observed in speech act problems, a transformer-based data augmentation model was implemented to generate an equal proportion of speech act categories. The results show that the best BERT model is araBERTv2-Twitter models with a macro-averaged F1 score and an accuracy of 0.73 and 0.84, respectively. The performance improved using a BERT-based ensemble method with a 0.74 and 0.85 averaged F1 score and accuracy on our dataset, respectively.
Abstract（参考訳）: 発話行為とは、会話の中で発話を行う際に、質問、推薦、挨拶、感謝、思考の表現、提案などを行う際の話者の行為である。言語行動を理解することは、話者や作家の言葉の背後にある意図された意味や行動を理解するのに役立つ。本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。 Twitterやソーシャルメディアは、日々の生活にますます統合されつつある。結果として、彼らはユーザーの見解や態度を表す重要な情報源へと進化してきた。本研究では,アラビア語音声行為分類における様々なbertモデルの利点を統合するために,bertを用いた重み付きアンサンブル学習手法を提案する。提案モデルとアラビア語 bert モデルおよびシーケンスベースモデルの比較を行った。既存のアラビア語感情分析データセット (asad) のサブセットを6つの発話行動カテゴリにアノテートすることにより, 方言的アラビア語ツイート行動データセットを開発した。また,以前開発されたアラビア語ツイートアクトデータセット (arsas) 上で評価を行った。音声行為問題でよく見られるクラス不均衡問題を克服するため,トランスフォーマーに基づくデータ拡張モデルを導入し,音声行為カテゴリの等比を生成する。その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。 BERTに基づくアンサンブル法では,平均F1スコアと精度をそれぞれ0.74と0.85で改善した。

関連論文リスト

Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models [0.0]
本稿では、トランスファー学習とトランスフォーマーモデルを組み合わせたディープラーニング手法を用いて、アラビア語 Alphabet Sign Language 認識手法を提案する。本稿では,ArSL2018 と AASL の2つの公開データセット上で,異なる変種の性能について検討する。実験の結果、提案手法は、ArSL2018とAASLでそれぞれ99.6%、99.43%の精度で高い精度を得られることが示されている。
論文参考訳（メタデータ） (2024-10-01T13:39:26Z)
Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文参考訳（メタデータ） (2024-06-24T15:58:15Z)
SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文参考訳（メタデータ） (2024-04-08T15:21:17Z)
Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文参考訳（メタデータ） (2023-05-22T13:12:16Z)
TunBERT: Pretrained Contextualized Text Representation for Tunisian Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文参考訳（メタデータ） (2021-11-25T15:49:50Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文参考訳（メタデータ） (2021-05-30T13:02:45Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
Pre-Training BERT on Arabic Tweets: Practical Considerations [11.087099497830552]
トレーニングセットのサイズ、形式と非公式のアラビア語の混合、言語前処理の5つのBERTモデルを事前訓練した。すべてアラビア方言とソーシャルメディアをサポートすることを意図している。新しいモデルは、いくつかの下流タスクで最新の結果を達成します。
論文参考訳（メタデータ） (2021-02-21T20:51:33Z)
LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文参考訳（メタデータ） (2020-08-11T16:14:47Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。