論文の概要: Lex2Sent: A bagging approach to unsupervised sentiment analysis
- arxiv url: http://arxiv.org/abs/2209.13023v1
- Date: Mon, 26 Sep 2022 20:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:15:15.254698
- Title: Lex2Sent: A bagging approach to unsupervised sentiment analysis
- Title(参考訳): Lex2Sent: 教師なし感情分析のためのバッグングアプローチ
- Authors: Kai-Robin Lange, Jonas Rieger, Carsten Jentsch
- Abstract要約: 本論文で提案するLex2Sentは,感情辞書手法の分類を改善するための教師なし感情分析手法である。
本論文では,3つのベンチマークデータセットに対して,提案したLex2Sentは評価されたレキシコンのすべてに優れる。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised sentiment analysis is traditionally performed by counting those
words in a text that are stored in a sentiment lexicon and then assigning a
label depending on the proportion of positive and negative words registered.
While these "counting" methods are considered to be beneficial as they rate a
text deterministically, their classification rates decrease when the analyzed
texts are short or the vocabulary differs from what the lexicon considers
default. The model proposed in this paper, called Lex2Sent, is an unsupervised
sentiment analysis method to improve the classification of sentiment lexicon
methods. For this purpose, a Doc2Vec-model is trained to determine the
distances between document embeddings and the embeddings of the positive and
negative part of a sentiment lexicon. These distances are then evaluated for
multiple executions of Doc2Vec on resampled documents and are averaged to
perform the classification task. For three benchmark datasets considered in
this paper, the proposed Lex2Sent outperforms every evaluated lexicon,
including state-of-the-art lexica like VADER or the Opinion Lexicon in terms of
classification rate.
- Abstract(参考訳): 教師なし感情分析は、伝統的に感情辞書に格納されたテキストにこれらの単語をカウントし、正と負の単語の割合に応じてラベルを割り当てる。
これらの「計数」法はテキストを決定論的に評価することで有益と考えられるが、解析されたテキストが短い場合や語彙が既定であると考えるものと異なる場合、分類率は低下する。
本論文で提案するモデルはlex2sentと呼ばれ,感情語彙法の分類を改善するための教師なし感情分析手法である。
この目的のためにDoc2Vecモデルを訓練し、文書埋め込みと感情辞書の正および負の部分の埋め込みの距離を決定する。
これらの距離は、再サンプリングされた文書上でDoc2Vecの複数の実行に対して評価され、分類タスクを実行するために平均化される。
本論文で検討した3つのベンチマークデータセットにおいて,提案するlex2sentは,vader のような最先端のlexica やオピニオン・レキシコンといった評価されたレキシコンを,分類率で上回っている。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - A Comparison of Lexicon-Based and ML-Based Sentiment Analysis: Are There
Outlier Words? [14.816706893177997]
本稿では、4つのドメインから抽出された15万以上の英語テキストに対する感情を計算する。
回帰モデルを用いて各ドメインの文書に対するアプローチ間の感情スコアの差をモデル化する。
以上の結果から,単語の重要性はドメインに依存しており,感情スコアの違いを系統的に引き起こす辞書項目が存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-11-10T18:21:50Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Text Detoxification using Large Pre-trained Neural Models [57.72086777177844]
テキスト中の毒性を除去する2つの新しい教師なし手法を提案する。
最初の方法は、生成プロセスのガイダンスと、小さなスタイル条件言語モデルを組み合わせることである。
第2の方法は、BERTを使用して有害な単語を非攻撃的同義語に置き換える。
論文 参考訳(メタデータ) (2021-09-18T11:55:32Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - Disentangling Homophemes in Lip Reading using Perplexity Analysis [10.262299768603894]
本稿では,ジェネレーティブ・プレトレーニング・トランスの新しい応用法を提案する。
ヴィセムの形で視覚音声を、単語や文の形で言語に変換する言語モデルとして機能する。
ネットワークは最適なパープレキシティを探索して、ビセメ・ツー・ワードマッピングを実行する。
論文 参考訳(メタデータ) (2020-11-28T12:12:17Z) - Assessing Robustness of Text Classification through Maximal Safe Radius
Computation [21.05890715709053]
本研究の目的は,単語が同義語のような妥当な代替語に置き換えられた場合,モデル予測が変化しない保証を提供することである。
強靭性の尺度として、与えられた入力テキストに対して最大安全半径という概念を採用し、これは決定境界への埋め込み空間の最小距離である。
上界計算では,モンテカルロ木探索と構文フィルタリングを併用して,単語置換と単語置換の効果を解析する。
論文 参考訳(メタデータ) (2020-10-01T09:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。