論文の概要: Generating Word and Document Embeddings for Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2001.01269v2
- Date: Mon, 7 Dec 2020 18:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 07:51:04.697538
- Title: Generating Word and Document Embeddings for Sentiment Analysis
- Title(参考訳): 感性分析のための単語と文書埋め込みの生成
- Authors: Cem R{\i}fk{\i} Ayd{\i}n, Tunga G\"ung\"or, Ali Erkan
- Abstract要約: 本稿では、文脈情報と教師付き情報と、辞書に現れる単語の一般的な意味表現を組み合わせる。
トルコの映画ドメインとTwitterデータセットである2つのコーパスに対して、ドメイン固有の感情ベクトルを誘導する。
これは我々のアプローチがクロスドメインであり、他の言語に移植可能であることを示している。
- 参考スコア(独自算出の注目度): 0.36525095710982913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiments of words differ from one corpus to another. Inducing general
sentiment lexicons for languages and using them cannot, in general, produce
meaningful results for different domains. In this paper, we combine contextual
and supervised information with the general semantic representations of words
occurring in the dictionary. Contexts of words help us capture the
domain-specific information and supervised scores of words are indicative of
the polarities of those words. When we combine supervised features of words
with the features extracted from their dictionary definitions, we observe an
increase in the success rates. We try out the combinations of contextual,
supervised, and dictionary-based approaches, and generate original vectors. We
also combine the word2vec approach with hand-crafted features. We induce
domain-specific sentimental vectors for two corpora, which are the movie domain
and the Twitter datasets in Turkish. When we thereafter generate document
vectors and employ the support vector machines method utilising those vectors,
our approaches perform better than the baseline studies for Turkish with a
significant margin. We evaluated our models on two English corpora as well and
these also outperformed the word2vec approach. It shows that our approaches are
cross-domain and portable to other languages.
- Abstract(参考訳): 単語の感情はコーパスによって異なる。
言語に対する一般的な感情のレキシコンを誘発し、それらを使用すると、一般的に異なるドメインに対して有意義な結果を生み出すことができない。
本稿では,文脈情報と教師情報と,辞書に含まれる単語の一般的な意味表現とを組み合わせる。
単語の文脈はドメイン固有の情報を捉えるのに役立ち、単語の教師付きスコアはそれらの単語の極性を示す。
単語の教師付き特徴と辞書の定義から抽出した特徴を組み合わせると,成功率の増加が観察される。
文脈、教師付き、辞書に基づくアプローチの組み合わせを試行し、元のベクトルを生成する。
また、Word2vecアプローチと手作りの機能を組み合わせています。
トルコ語で映画ドメインとtwitterデータセットである2つのコーパスに対して,ドメイン固有の感情ベクトルを誘導する。
その後、文書ベクトルを生成し、それらのベクトルを利用する支援ベクトルマシン手法を用いると、トルコのベースライン研究よりも大きなマージンを持つ手法が優れている。
また,2つの英単語コーパスのモデルも評価し,ワード2vecのアプローチよりも優れていた。
これは我々のアプローチがクロスドメインであり、他の言語に移植可能であることを示している。
関連論文リスト
- Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Tsetlin Machine Embedding: Representing Words Using Logical Expressions [10.825099126920028]
本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-02T15:02:45Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - WOVe: Incorporating Word Order in GloVe Word Embeddings [0.0]
単語をベクトルとして定義することで、機械学習アルゴリズムがテキストを理解し、そこから情報を抽出しやすくなります。
ワードベクトル表現は、単語同義語、単語類似、構文解析など、多くのアプリケーションで使われている。
論文 参考訳(メタデータ) (2021-05-18T15:28:20Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - Principal Word Vectors [5.64434321651888]
単語をベクトル空間に埋め込むための主成分分析を一般化する。
主語ベクトルの拡散と識別性は他の単語埋め込み法よりも高いことを示す。
論文 参考訳(メタデータ) (2020-07-09T08:29:57Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。