論文の概要: A comprehensive empirical analysis on cross-domain semantic enrichment
for detection of depressive language
- arxiv url: http://arxiv.org/abs/2106.12797v1
- Date: Thu, 24 Jun 2021 07:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-26 03:54:52.340349
- Title: A comprehensive empirical analysis on cross-domain semantic enrichment
for detection of depressive language
- Title(参考訳): 抑うつ言語検出のためのドメイン間セマンティックエンリッチメントに関する包括的実証分析
- Authors: Nawshad Farruque, Randy Goebel and Osmar Zaiane
- Abstract要約: まず、大規模な汎用データセットから事前トレーニングされたリッチな単語の埋め込みから始め、シンプルな非線形マッピングメカニズムを通じて、はるかに小さく、より特定のドメインデータセットから学んだ埋め込みで拡張します。
単語の埋め込み表現は,高品質なデータセットに適用した場合に,他よりもはるかに優れたF1スコアが得られることを示す。
- 参考スコア(独自算出の注目度): 0.9749560288448115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze the process of creating word embedding feature representations
designed for a learning task when annotated data is scarce, for example, in
depressive language detection from Tweets. We start with a rich word embedding
pre-trained from a large general dataset, which is then augmented with
embeddings learned from a much smaller and more specific domain dataset through
a simple non-linear mapping mechanism. We also experimented with several other
more sophisticated methods of such mapping including, several auto-encoder
based and custom loss-function based methods that learn embedding
representations through gradually learning to be close to the words of similar
semantics and distant to dissimilar semantics. Our strengthened representations
better capture the semantics of the depression domain, as it combines the
semantics learned from the specific domain coupled with word coverage from the
general language. We also present a comparative performance analyses of our
word embedding representations with a simple bag-of-words model, well known
sentiment and psycholinguistic lexicons, and a general pre-trained word
embedding. When used as feature representations for several different machine
learning methods, including deep learning models in a depressive Tweets
identification task, we show that our augmented word embedding representations
achieve a significantly better F1 score than the others, specially when applied
to a high quality dataset. Also, we present several data ablation tests which
confirm the efficacy of our augmentation techniques.
- Abstract(参考訳): 例えば、ツイートからの抑うつ的言語検出において、アノテートされたデータが不足している場合、学習タスク用に設計された単語埋め込み特徴表現を作成するプロセスを分析する。
まず、大きな一般的なデータセットから事前学習されたリッチな単語埋め込みから始め、より小さくより具体的なドメインデータセットから学んだ埋め込みを、単純な非線形マッピングメカニズムを通じて拡張します。
また,類似意味論の単語に近づいたり,異種意味論に近づいたりすることで,埋め込み表現を学習する自動エンコーダベースおよびカスタムロス関数ベース手法についても実験を行った。
我々の強化された表現は、特定のドメインから学んだセマンティクスと一般的な言語からの単語カバレッジを組み合わせることで、抑うつドメインのセマンティクスをよりよく捉えます。
また,単語の埋め込み表現を,単純な単語のバッグ・オブ・ワードモデル,よく知られた感情と心理言語的語彙,一般的な事前学習語埋め込みを用いて比較した。
抑うつ的なつぶやき識別タスクにおける深層学習モデルを含む,さまざまな機械学習手法の特徴表現として使用される場合,この拡張単語埋め込み表現は,高品質なデータセットに適用した場合に,他よりもはるかに優れたF1スコアが得られることを示す。
また,本手法の有効性を確認するため,いくつかのデータアブレーション試験を行った。
関連論文リスト
- Persian Homograph Disambiguation: Leveraging ParsBERT for Enhanced Sentence Understanding with a Novel Word Disambiguation Dataset [0.0]
ペルシャのホモグラフの曖昧化に適した新しいデータセットを提案する。
本研究は,コサイン類似性法による各種埋没物の徹底的な探索を含む。
我々は、精度、リコール、F1スコアの観点からモデルの性能を精査する。
論文 参考訳(メタデータ) (2024-05-24T14:56:36Z) - Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Multi-sense embeddings through a word sense disambiguation process [2.2344764434954256]
最も適した感覚。
(MSSA)は、その文脈の意味的効果を考慮して、それぞれの単語をその特定の感覚で曖昧にし、注釈する。
我々は,単語類似性タスクの6つの異なるベンチマークでアプローチを検証し,そのアプローチが最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-01-21T16:22:34Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。