論文の概要: HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis
and Emotion Recognition
- arxiv url: http://arxiv.org/abs/2102.01909v1
- Date: Wed, 3 Feb 2021 06:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:33:06.903251
- Title: HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis
and Emotion Recognition
- Title(参考訳): HeBERT & HebEMO:ヘブライ語BERTモデルと極性分析と感情認識のためのツール
- Authors: Avihay Chriqui, Inbal Yahav
- Abstract要約: HeBERTは現代ヘブライ語テキストのトランスフォーマーベースのモデルである。
HebEMOはHeBERTを使って極性を検出し、Hebrewのユーザ生成コンテンツから感情を抽出するツールだ。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of Bidirectional Encoder Representations from Transformers (BERT)
models for different natural language processing (NLP) tasks, and for sentiment
analysis in particular, has become very popular in recent years and not in
vain. The use of social media is being constantly on the rise. Its impact on
all areas of our lives is almost inconceivable. Researches show that social
media nowadays serves as one of the main tools where people freely express
their ideas, opinions, and emotions. During the current Covid-19 pandemic, the
role of social media as a tool to resonate opinions and emotions, became even
more prominent.
This paper introduces HeBERT and HebEMO. HeBERT is a transformer-based model
for modern Hebrew text. Hebrew is considered a Morphological Rich Language
(MRL), with unique characteristics that pose a great challenge in developing
appropriate Hebrew NLP models. Analyzing multiple specifications of the BERT
architecture, we come up with a language model that outperforms all existing
Hebrew alternatives on multiple language tasks.
HebEMO is a tool that uses HeBERT to detect polarity and extract emotions
from Hebrew user-generated content (UGC), which was trained on a unique
Covid-19 related dataset that we collected and annotated for this study. Data
collection and annotation followed an innovative iterative semi-supervised
process that aimed to maximize predictability. HebEMO yielded a high
performance of weighted average F1-score = 0.96 for polarity classification.
Emotion detection reached an F1-score of 0.78-0.97, with the exception of
\textit{surprise}, which the model failed to capture (F1 = 0.41). These results
are better than the best-reported performance, even when compared to the
English language.
- Abstract(参考訳): 異なる自然言語処理(NLP)タスク、特に感情分析のための変換器(BERT)モデルからの双方向エンコーダ表現の使用は、近年において非常に人気があり、無駄である。
ソーシャルメディアの利用は、常に増加傾向にある。
われわれの生活のあらゆる領域に対する影響はほとんど考えられない。
研究によると、ソーシャルメディアは人々が自分の考え、意見、感情を自由に表現する主要なツールの1つになっている。
現在のCovid-19パンデミックの間、意見や感情を共鳴させるツールとしてのソーシャルメディアの役割はさらに顕著になった。
本稿では,HeBERTとHebEMOを紹介する。
HeBERTは現代ヘブライ語テキストのトランスフォーマーベースのモデルである。
ヘブライ語はモルフォロジカルリッチ言語(MRL)と見なされ、適切なヘブライ語NLPモデルを開発する上で大きな課題となる独特の特徴を持つ。
BERTアーキテクチャの複数の仕様を分析し、既存のすべてのHebrew代替案を複数の言語タスクで上回る言語モデルを思いついた。
HebEMOは、HeBERTを使用して、ヘブライ語のユーザー生成コンテンツ(UGC)から極性を検出し、感情を抽出するツールです。
データ収集とアノテーションは、予測可能性の最大化を目的とした革新的な反復的な半監視プロセスに続きました。
HebEMOは極性分類のための重み付き平均F1スコア=0.96の性能を得た。
感情検出は「textit{surprise}」を除いて0.78-0.97のF1スコアに達した(F1 = 0.41)。
これらの結果は、英語と比較しても、最も報告されたパフォーマンスよりも優れている。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for
Classifying Arabic Speech Acts on Twitter [0.32885740436059047]
本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。
本研究では,BERTに基づく重み付きアンサンブル学習手法を提案する。
その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。
論文 参考訳(メタデータ) (2024-01-30T19:01:24Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Large Pre-Trained Models with Extra-Large Vocabularies: A Contrastive
Analysis of Hebrew BERT Models and a New One to Outperform Them All [8.964815786230686]
AlephBERTGimmelとよばれる現代ヘブライ語のための新しい事前学習言語モデル(PLM)を提案する。
我々は,従来のヘブライ語 PLM (mBERT, heBERT, AlephBERT) に対して,このモデルを対照的に解析し,より大きな語彙がタスク性能に与える影響を評価する。
実験の結果、より大きな語彙は分割を減らし、分割を減らすことは、異なるタスクをまたいだモデルの性能向上に有効であることがわかった。
論文 参考訳(メタデータ) (2022-11-28T10:17:35Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Towards Efficient NLP: A Standard Evaluation and A Strong Baseline [55.29756535335831]
本研究は, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ベンチマークとともに、強いベースラインであるElasticBERTの事前トレーニングとリリースも行います。
論文 参考訳(メタデータ) (2021-10-13T21:17:15Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your
Hebrew NLP Application With [7.345047237652976]
大規模プリトレーニング言語モデル(PLM)は、言語理解技術の発展においてユビキタスになっています。
PLMを用いた英語の進歩は前例がないが、ヘブライ語でのPLMの使用の進展は少ない。
論文 参考訳(メタデータ) (2021-04-08T20:51:29Z) - Towards Emotion Recognition in Hindi-English Code-Mixed Data: A
Transformer Based Approach [0.0]
感情検出のためのラベル付きhinglishデータセットを提案する。
ヒンディー語と英語の混成ツイートの感情を検出するための深層学習に基づくアプローチに注目した。
論文 参考訳(メタデータ) (2021-02-19T14:07:20Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。