論文の概要: Using Word Embeddings to Analyze Protests News
- arxiv url: http://arxiv.org/abs/2203.05875v1
- Date: Fri, 11 Mar 2022 12:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 17:01:47.750030
- Title: Using Word Embeddings to Analyze Protests News
- Title(参考訳): 言葉埋め込みを使って抗議のニュースを分析する
- Authors: Maria Alejandra Cardoza Ceron
- Abstract要約: 既存のワード埋め込みである word2vec と FastTest を ELMo と DistilBERT に置き換えるため、2つの優れたモデルが選択されている。
単語の袋やそれ以前のベクトルアプローチとは異なり、ELMo と DistilBERT はテキスト内の文脈情報に基づいて意味をキャプチャすることで、単語をベクトルの列として表現する。
- 参考スコア(独自算出の注目度): 2.024222101808971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The first two tasks of the CLEF 2019 ProtestNews events focused on
distinguishing between protest and non-protest related news articles and
sentences in a binary classification task. Among the submissions, two well
performing models have been chosen in order to replace the existing word
embeddings word2vec and FastTest with ELMo and DistilBERT. Unlike bag of words
or earlier vector approaches, ELMo and DistilBERT represent words as a sequence
of vectors by capturing the meaning based on contextual information in the
text. Without changing the architecture of the original models other than the
word embeddings, the implementation of DistilBERT improved the performance
measured on the F1-Score of 0.66 compared to the FastText implementation.
DistilBERT also outperformed ELMo in both tasks and models. Cleaning the
datasets by removing stopwords and lemmatizing the words has been shown to make
the models more generalizable across different contexts when training on a
dataset with Indian news articles and evaluating the models on a dataset with
news articles from China.
- Abstract(参考訳): CLEF 2019 ProtestNewsイベントの最初の2つのタスクは、二項分類タスクにおける抗議記事と非抗議記事と文の区別に焦点を当てている。
提案のうち、既存のワード埋め込みの word2vec と FastTest を ELMo と DistilBERT に置き換えるために、2つの優れたモデルが選択されている。
単語の袋やそれ以前のベクトルアプローチとは異なり、ELMo と DistilBERT はテキスト内の文脈情報に基づいて意味を捉え、単語をベクトルの列として表現する。
単語埋め込み以外のオリジナルのモデルのアーキテクチャを変更することなく、DistilBERTの実装はFastTextの実装と比較して0.66のF1スコアで測定されたパフォーマンスを改善した。
DistilBERTはタスクとモデルの両方でELMoを上回った。
停止語の削除と単語の補間によるデータセットのクリーニングは、インドのニュース記事を用いたデータセットのトレーニングや、中国からのニュース記事を含むデータセットのモデルの評価において、さまざまなコンテキストでモデルをより一般化できることが示されている。
関連論文リスト
- Analyzing the Generalizability of Deep Contextualized Language
Representations For Text Classification [0.0]
本研究では,2つの最先端の文脈言語表現であるELMoとDistilBERTのロバスト性を評価する。
ニュース分類タスクでは、これらのモデルはインドからのローカルニュースで開発され、中国からのローカルニュースでテストされる。
感情分析タスクでは、モデルが映画レビューに基づいてトレーニングされ、顧客レビューでテストされる。
論文 参考訳(メタデータ) (2023-03-22T22:31:09Z) - Text Detoxification using Large Pre-trained Neural Models [57.72086777177844]
テキスト中の毒性を除去する2つの新しい教師なし手法を提案する。
最初の方法は、生成プロセスのガイダンスと、小さなスタイル条件言語モデルを組み合わせることである。
第2の方法は、BERTを使用して有害な単語を非攻撃的同義語に置き換える。
論文 参考訳(メタデータ) (2021-09-18T11:55:32Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - W2v-BERT: Combining Contrastive Learning and Masked Language Modeling
for Self-Supervised Speech Pre-Training [49.47516627019855]
w2v-BERTは、コントラスト学習と事前教師付き音声認識を組み合わせたフレームワークである。
実験の結果,w2v-BERTは現在の最先端の事前訓練モデルと比較して,競争力のある結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-08-07T06:29:36Z) - Word2rate: training and evaluating multiple word embeddings as
statistical transitions [4.350783459690612]
単語順に敏感なタスクのパフォーマンスを向上させる,新しい左サイドコンテキスト分割目標を提案する。
私たちの word2rate モデルは、さまざまな言語タスクで競争しながら、レート行列を用いた統計基礎に基礎を置いている。
論文 参考訳(メタデータ) (2021-04-16T15:31:29Z) - Representing ELMo embeddings as two-dimensional text online [5.1525653500591995]
本稿では,Web上の単語埋め込みモデルを提供するWeb Embeddingsツールキットの新たな追加について述べる。
新しいELMoVizモジュールは、コンテキスト化された組み込みアーキテクチャ、特にELMoモデルのサポートを追加する。
提供された可視化は2次元テキストのメタファーに従い、語彙的な代名詞を示す:入力文の単語と文脈的に最もよく似た単語である。
論文 参考訳(メタデータ) (2021-03-30T15:12:29Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - Attention Word Embedding [23.997145283950346]
本稿では,アテンションワード埋め込み(AWE)モデルを紹介し,アテンションメカニズムをCBOWモデルに統合する。
また,サブワード情報を組み込んだAWE-Sを提案する。
AWEとAWE-Sは、様々な単語類似性データセット上で、最先端の単語埋め込みモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-01T14:47:48Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。