論文の概要: Building domain specific lexicon based on TikTok comment dataset
- arxiv url: http://arxiv.org/abs/2012.08773v1
- Date: Wed, 16 Dec 2020 07:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 10:53:50.014329
- Title: Building domain specific lexicon based on TikTok comment dataset
- Title(参考訳): TikTokコメントデータセットに基づくドメイン固有辞書の構築
- Authors: Hao Jiaxiang
- Abstract要約: それまでの研究では、例えば、Valence、Arousal、Dominance of sentenceに基づく文の感情傾向の分析など、英語の感情分析に焦点が当てられていた。
本稿では,ドメイン固有辞書を構築する手法を試みた。
モデルは感情的な傾向の中国語の単語を分類できます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the sentiment analysis task, predicting the sentiment tendency of a
sentence is an important branch. Previous research focused more on sentiment
analysis in English, for example, analyzing the sentiment tendency of sentences
based on Valence, Arousal, Dominance of sentences. the emotional tendency is
different between the two languages. For example, the sentence order between
Chinese and English may present different emotions. This paper tried a method
that builds a domain-specific lexicon. In this way, the model can classify
Chinese words with emotional tendency. In this approach, based on the [13], an
ultra-dense space embedding table is trained through word embedding of Chinese
TikTok review and emotional lexicon sources(seed words). The result of the
model is a domain-specific lexicon, which presents the emotional tendency of
words. I collected Chinese TikTok comments as training data. By comparing The
training results with the PCA method to evaluate the performance of the model
in Chinese sentiment classification, the results show that the model has done
well in Chinese. The source code has released on
github:https://github.com/h2222/douyin_comment_dataset
- Abstract(参考訳): 感情分析タスクでは、文の感情傾向を予測することが重要な分野である。
従来の研究は、例えば、Valence、Arousal、Dominance of sentenceに基づく文の感情傾向の分析など、英語の感情分析に重点を置いていた。
感情的な傾向は 2つの言語で異なります
例えば、中国語と英語の文順は異なる感情を示すことがある。
本稿では,ドメイン固有辞書を構築する手法を試みた。
このように、モデルは感情的な傾向で中国語を分類することができる。
このアプローチでは,[13]に基づいて,中国語TikTokレビューと感情的語彙源(シード語)の単語埋め込みを通じて,超高密度空間埋め込みテーブルを訓練する。
モデルの結果はドメイン固有の語彙であり、単語の感情的な傾向を示す。
トレーニングデータとして中国のTikTokコメントを収集しました。
トレーニング結果とPCA法を比較して,中国語の感情分類におけるモデルの性能を評価することで,そのモデルが中国語でうまく機能したことを示す。
ソースコードがgithubでリリースされた。https://github.com/h2222/douyin_comment_dataset
関連論文リスト
- Lack of Fluency is Hurting Your Translation Model [18.259879373559546]
この研究は、列車の文のどの部分が不自然に見えるかを決定するために、テクティトゥフルエンシノイズを定義している。
WMT-14 DE$rightarrow$EN と RU$rightarrow$EN のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-05-24T06:44:17Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。
生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文 参考訳(メタデータ) (2020-12-29T14:28:07Z) - End-to-End Chinese Parsing Exploiting Lexicons [15.786281545363448]
本稿では,単語分割,部分音声タグ,依存関係構造を共同で学習する文字入力に基づくエンドツーエンド中国語構文解析モデルを提案する。
解析モデルは,文字入力を外部の単語知識で豊かにすることができるワードチャートグラフアテンションネットワークに依存している。
論文 参考訳(メタデータ) (2020-12-08T12:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。