論文の概要: Augmenting semantic lexicons using word embeddings and transfer learning
- arxiv url: http://arxiv.org/abs/2109.09010v1
- Date: Sat, 18 Sep 2021 20:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:47:08.539825
- Title: Augmenting semantic lexicons using word embeddings and transfer learning
- Title(参考訳): 単語埋め込みと転送学習を用いた意味語彙の強化
- Authors: Thayer Alshaabi, Colin Van Oort, Mikaela Fudolig, Michael V. Arnold,
Christopher M. Danforth, Peter Sheridan Dodds
- Abstract要約: 本稿では,単語埋め込みと伝達学習を用いて,感情スコアを比較的低コストで拡張するための2つのモデルを提案する。
評価の結果、両モデルともAmazon Mechanical Turkのレビュアーと同様の精度で新しい単語を採点できるが、コストはごくわずかである。
- 参考スコア(独自算出の注目度): 1.101002667958165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment-aware intelligent systems are essential to a wide array of
applications including marketing, political campaigns, recommender systems,
behavioral economics, social psychology, and national security. These
sentiment-aware intelligent systems are driven by language models which broadly
fall into two paradigms: 1. Lexicon-based and 2. Contextual. Although recent
contextual models are increasingly dominant, we still see demand for
lexicon-based models because of their interpretability and ease of use. For
example, lexicon-based models allow researchers to readily determine which
words and phrases contribute most to a change in measured sentiment. A
challenge for any lexicon-based approach is that the lexicon needs to be
routinely expanded with new words and expressions. Crowdsourcing annotations
for semantic dictionaries may be an expensive and time-consuming task. Here, we
propose two models for predicting sentiment scores to augment semantic lexicons
at a relatively low cost using word embeddings and transfer learning. Our first
model establishes a baseline employing a simple and shallow neural network
initialized with pre-trained word embeddings using a non-contextual approach.
Our second model improves upon our baseline, featuring a deep Transformer-based
network that brings to bear word definitions to estimate their lexical
polarity. Our evaluation shows that both models are able to score new words
with a similar accuracy to reviewers from Amazon Mechanical Turk, but at a
fraction of the cost.
- Abstract(参考訳): 感性を考慮したインテリジェントシステムは、マーケティング、政治キャンペーン、推薦システム、行動経済学、社会心理学、国家安全保障など、幅広い応用に不可欠である。
これらの感情を意識したインテリジェントシステムは、言語モデルによって駆動される。
1.レキシコンベース、及び
2. コンテキスト。
最近のコンテキストモデルはますます支配的になっているが、解釈性や使いやすさから、レキシコンベースのモデルに対する需要が依然として残っている。
例えば、辞書ベースのモデルでは、研究者はどの単語やフレーズが測定された感情の変化に最も寄与するかを簡単に決定できる。
レキシコンベースのアプローチの課題は、レキシコンを新しい単語と表現で日常的に拡張する必要があることである。
セマンティック辞書のためのクラウドソーシングアノテーションは、費用がかかり、時間がかかるタスクである。
本稿では,単語埋め込みと伝達学習を用いて,感情スコアを比較的低コストで拡張するための2つのモデルを提案する。
最初のモデルは、非文脈的アプローチを用いて、事前学習された単語の埋め込みを初期化した、単純で浅いニューラルネットワークを用いたベースラインを確立する。
第2のモデルはベースラインを改善し、語彙の極性を評価するために単語定義を持つ深いトランスフォーマーベースのネットワークを特徴としている。
評価の結果、両モデルともAmazon Mechanical Turkのレビュアーと同様の精度で新しい単語を採点できるが、コストはごくわずかであることがわかった。
関連論文リスト
- DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Text analysis and deep learning: A network approach [0.0]
本稿では,変圧器モデルとネットワーク解析を併用して,言語使用の自己参照表現を生成する手法を提案する。
我々のアプローチは、基礎となるモデルと強く整合した言語関係と、それらに関する数学的に明確に定義された操作を生成する。
我々の知る限りでは、深層言語モデルから直接意味ネットワークを抽出する最初の教師なし手法である。
論文 参考訳(メタデータ) (2021-10-08T14:18:36Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - Embodying Pre-Trained Word Embeddings Through Robot Actions [9.048164930020404]
多語語を含む様々な言語表現に適切に対応することは、ロボットにとって重要な能力です。
これまでの研究で、ロボットは事前訓練された単語埋め込みを用いることで、アクション記述ペアデータセットに含まれていない単語を使用できることが示されている。
ロボットの感覚運動体験を用いて,事前学習された単語埋め込みを具体化したものに変換する。
論文 参考訳(メタデータ) (2021-04-17T12:04:49Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。