論文の概要: Lex2Sent: A bagging approach to unsupervised sentiment analysis
- arxiv url: http://arxiv.org/abs/2209.13023v2
- Date: Tue, 22 Oct 2024 15:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 18:22:41.779944
- Title: Lex2Sent: A bagging approach to unsupervised sentiment analysis
- Title(参考訳): Lex2Sent: 教師なし感情分析のためのバッグングアプローチ
- Authors: Kai-Robin Lange, Jonas Rieger, Carsten Jentsch,
- Abstract要約: 本稿では,テキストの分類方法として,Lex2Sentを提案する。
テキストを分類するために、文書埋め込みと適切な辞書の埋め込みの距離を決定するために埋め込みモデルを訓練する。
本稿では,このモデルがレキシカよりも優れており,バイナリ感情分析のタスクにおいて,高パフォーマンスな数発の微調整手法の基盤となることを示す。
- 参考スコア(独自算出の注目度): 0.628122931748758
- License:
- Abstract: Unsupervised text classification, with its most common form being sentiment analysis, used to be performed by counting words in a text that were stored in a lexicon, which assigns each word to one class or as a neutral word. In recent years, these lexicon-based methods fell out of favor and were replaced by computationally demanding fine-tuning techniques for encoder-only models such as BERT and zero-shot classification using decoder-only models such as GPT-4. In this paper, we propose an alternative approach: Lex2Sent, which provides improvement over classic lexicon methods but does not require any GPU or external hardware. To classify texts, we train embedding models to determine the distances between document embeddings and the embeddings of the parts of a suitable lexicon. We employ resampling, which results in a bagging effect, boosting the performance of the classification. We show that our model outperforms lexica and provides a basis for a high performing few-shot fine-tuning approach in the task of binary sentiment analysis.
- Abstract(参考訳): 教師なしのテキスト分類は、感情分析が最も一般的な形式であり、かつては、各単語を1つのクラスまたは中立語として割り当てるレキシコンに格納されたテキストで単語を数えることによって行われた。
近年、これらのレキシコンベースの手法は好ましくないものとなり、BERTのようなエンコーダのみのモデルのための微調整技術や、GPT-4のようなデコーダのみのモデルを用いたゼロショット分類に取って代わられた。
本稿では,従来のレキシコン法よりも改良されたLex2Sentを提案するが,GPUや外部ハードウェアは不要である。
テキストを分類するために、文書の埋め込みと適切な語彙の部分の埋め込みの間の距離を決定するために埋め込みモデルを訓練する。
再サンプリングにより, 袋詰効果が得られ, 分類性能が向上する。
本稿では,このモデルがレキシカよりも優れており,バイナリ感情分析のタスクにおいて,高パフォーマンスな数発の微調整手法の基盤となることを示す。
関連論文リスト
- Lexical Substitution is not Synonym Substitution: On the Importance of Producing Contextually Relevant Word Substitutes [5.065947993017158]
モデルに送信された文脈情報を強化するために,原文を利用した単純な拡張手法であるConCatを導入する。
本研究は,文の類似度とタスクパフォーマンスを指標とした定量的評価を含む。
また,従来手法とは対照的に,利用者が提案した代替品を優先することを示す定性的な人間分析を行った。
論文 参考訳(メタデータ) (2025-02-06T16:05:50Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - Token-Level Graphs for Short Text Classification [1.6819960041696331]
本稿では,事前学習言語モデル(PLM)を用いて得られたトークンに基づいて,完全にテキストグラフを構築する手法を提案する。
本手法は文脈情報や意味情報を抽出し,語彙制約を克服し,文脈に依存した単語の意味を抽出する。
実験により,本手法が既存の手法で高いスコアやオンパー性能を連続的に達成する方法が実証された。
論文 参考訳(メタデータ) (2024-12-17T10:19:44Z) - Label-template based Few-Shot Text Classification with Contrastive Learning [7.964862748983985]
本稿では,単純かつ効果的なテキスト分類フレームワークを提案する。
ラベルテンプレートは入力文に埋め込まれ、クラスラベルの潜在値を完全に活用する。
教師付きコントラスト学習を用いて、サポートサンプルとクエリサンプル間の相互作用情報をモデル化する。
論文 参考訳(メタデータ) (2024-12-13T12:51:50Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Text Detoxification using Large Pre-trained Neural Models [57.72086777177844]
テキスト中の毒性を除去する2つの新しい教師なし手法を提案する。
最初の方法は、生成プロセスのガイダンスと、小さなスタイル条件言語モデルを組み合わせることである。
第2の方法は、BERTを使用して有害な単語を非攻撃的同義語に置き換える。
論文 参考訳(メタデータ) (2021-09-18T11:55:32Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。