論文の概要: Lex2Sent: A bagging approach to unsupervised sentiment analysis
- arxiv url: http://arxiv.org/abs/2209.13023v1
- Date: Mon, 26 Sep 2022 20:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:15:15.254698
- Title: Lex2Sent: A bagging approach to unsupervised sentiment analysis
- Title(参考訳): Lex2Sent: 教師なし感情分析のためのバッグングアプローチ
- Authors: Kai-Robin Lange, Jonas Rieger, Carsten Jentsch
- Abstract要約: 本論文で提案するLex2Sentは,感情辞書手法の分類を改善するための教師なし感情分析手法である。
本論文では,3つのベンチマークデータセットに対して,提案したLex2Sentは評価されたレキシコンのすべてに優れる。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised sentiment analysis is traditionally performed by counting those
words in a text that are stored in a sentiment lexicon and then assigning a
label depending on the proportion of positive and negative words registered.
While these "counting" methods are considered to be beneficial as they rate a
text deterministically, their classification rates decrease when the analyzed
texts are short or the vocabulary differs from what the lexicon considers
default. The model proposed in this paper, called Lex2Sent, is an unsupervised
sentiment analysis method to improve the classification of sentiment lexicon
methods. For this purpose, a Doc2Vec-model is trained to determine the
distances between document embeddings and the embeddings of the positive and
negative part of a sentiment lexicon. These distances are then evaluated for
multiple executions of Doc2Vec on resampled documents and are averaged to
perform the classification task. For three benchmark datasets considered in
this paper, the proposed Lex2Sent outperforms every evaluated lexicon,
including state-of-the-art lexica like VADER or the Opinion Lexicon in terms of
classification rate.
- Abstract(参考訳): 教師なし感情分析は、伝統的に感情辞書に格納されたテキストにこれらの単語をカウントし、正と負の単語の割合に応じてラベルを割り当てる。
これらの「計数」法はテキストを決定論的に評価することで有益と考えられるが、解析されたテキストが短い場合や語彙が既定であると考えるものと異なる場合、分類率は低下する。
本論文で提案するモデルはlex2sentと呼ばれ,感情語彙法の分類を改善するための教師なし感情分析手法である。
この目的のためにDoc2Vecモデルを訓練し、文書埋め込みと感情辞書の正および負の部分の埋め込みの距離を決定する。
これらの距離は、再サンプリングされた文書上でDoc2Vecの複数の実行に対して評価され、分類タスクを実行するために平均化される。
本論文で検討した3つのベンチマークデータセットにおいて,提案するlex2sentは,vader のような最先端のlexica やオピニオン・レキシコンといった評価されたレキシコンを,分類率で上回っている。
関連論文リスト
- Lexical Substitution is not Synonym Substitution: On the Importance of Producing Contextually Relevant Word Substitutes [5.065947993017158]
モデルに送信された文脈情報を強化するために,原文を利用した単純な拡張手法であるConCatを導入する。
本研究は,文の類似度とタスクパフォーマンスを指標とした定量的評価を含む。
また,従来手法とは対照的に,利用者が提案した代替品を優先することを示す定性的な人間分析を行った。
論文 参考訳(メタデータ) (2025-02-06T16:05:50Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - Token-Level Graphs for Short Text Classification [1.6819960041696331]
本稿では,事前学習言語モデル(PLM)を用いて得られたトークンに基づいて,完全にテキストグラフを構築する手法を提案する。
本手法は文脈情報や意味情報を抽出し,語彙制約を克服し,文脈に依存した単語の意味を抽出する。
実験により,本手法が既存の手法で高いスコアやオンパー性能を連続的に達成する方法が実証された。
論文 参考訳(メタデータ) (2024-12-17T10:19:44Z) - Label-template based Few-Shot Text Classification with Contrastive Learning [7.964862748983985]
本稿では,単純かつ効果的なテキスト分類フレームワークを提案する。
ラベルテンプレートは入力文に埋め込まれ、クラスラベルの潜在値を完全に活用する。
教師付きコントラスト学習を用いて、サポートサンプルとクエリサンプル間の相互作用情報をモデル化する。
論文 参考訳(メタデータ) (2024-12-13T12:51:50Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Text Detoxification using Large Pre-trained Neural Models [57.72086777177844]
テキスト中の毒性を除去する2つの新しい教師なし手法を提案する。
最初の方法は、生成プロセスのガイダンスと、小さなスタイル条件言語モデルを組み合わせることである。
第2の方法は、BERTを使用して有害な単語を非攻撃的同義語に置き換える。
論文 参考訳(メタデータ) (2021-09-18T11:55:32Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。