論文の概要: Breaking Bad: Norms for Valence, Arousal, and Dominance for over 10k English Multiword Expressions
- arxiv url: http://arxiv.org/abs/2511.19816v1
- Date: Tue, 25 Nov 2025 01:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.219307
- Title: Breaking Bad: Norms for Valence, Arousal, and Dominance for over 10k English Multiword Expressions
- Title(参考訳): 悪を破る:10万以上の英語のマルチワード表現の妥当性、覚醒、支配のノルム
- Authors: Saif M. Mohammad,
- Abstract要約: 本稿では,単語のVAD関連格付けを含む既存の辞書を補完する。
学会の信頼性は高い。
このレキシコンは、NLP、心理学、公衆衛生、デジタル人文科学、社会科学の幅広い研究を可能にする。
- 参考スコア(独自算出の注目度): 23.852162547414547
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Factor analysis studies have shown that the primary dimensions of word meaning are Valence (V), Arousal (A), and Dominance (D). Existing lexicons such as the NRC VAD Lexicon, published in 2018, include VAD association ratings for words. Here, we present a complement to it, which has human ratings of valence, arousal, and dominance for 10k English Multiword Expressions (MWEs) and their constituent words. We also increase the coverage of unigrams, especially words that have become more common since 2018. In all, the new NRC VAD Lexicon v2 now has entries for 10k MWEs and 25k words, in addition to the entries in v1. We show that the associations are highly reliable. We use the lexicon to examine emotional characteristics of MWEs, including: 1. The degree to which MWEs (idioms, noun compounds, and verb particle constructions) exhibit strong emotionality; 2. The degree of emotional compositionality in MWEs. The lexicon enables a wide variety of research in NLP, Psychology, Public Health, Digital Humanities, and Social Sciences. The NRC VAD Lexicon v2 is freely available through the project webpage: http://saifmohammad.com/WebPages/nrc-vad.html
- Abstract(参考訳): 因子分析により、単語の意味の主次元は、V(V)、A(A)、D(D)であることが示された。
2018年に発表されたNRC VAD Lexiconのような既存のレキシコンには、単語に対するVADアソシエーションレーティングが含まれる。
ここでは,10kの英語多語表現(MWEs)とその構成語に対して,人格評価,覚醒,優位性を有する補題を提案する。
また、ユニグラム、特に2018年以降に一般的になった単語のカバレッジも増やしています。
全体として、新しいNRC VAD Lexicon v2は、v1のエントリに加えて、10k MWEと25kワードのエントリを持つようになった。
学会の信頼性は高い。
語彙を用いて、MWEの感情的特徴を考察する。
1. MWE(イディオム,名詞化合物,動詞粒子構成)が強い感情性を示す程度
MWEにおける感情構成性の程度
このレキシコンは、NLP、心理学、公衆衛生、デジタル人文科学、社会科学の幅広い研究を可能にする。
NRC VAD Lexicon v2 は http://saifmohammad.com/WebPages/nrc-vad.org プロジェクト Web ページから自由に入手できる。
関連論文リスト
- Words of Warmth: Trust and Sociability Norms for over 26k English Words [35.0834082343387]
社会心理学者は、ウォームス(W)とコンピテンス(C)が、他の人々やグループを評価する主要な次元であることを示した。
我々は,26万語以上の英語の単語に対して,手作業による単語要約(単語信頼や単語結合性など)を行う最初の大規模リポジトリであるWords of Warmthを紹介した。
論文 参考訳(メタデータ) (2025-06-04T14:18:32Z) - NRC VAD Lexicon v2: Norms for Valence, Arousal, and Dominance for over 55k English Terms [35.0834082343387]
学会の信頼性は高い。
この辞書は心理学、NLP、公衆衛生、デジタル人文科学、社会科学の幅広い研究を可能にする。
論文 参考訳(メタデータ) (2025-03-30T18:07:09Z) - Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication [2.3320050024519596]
言語モデルにおける概念の使用と人々の期待の間にギャップが生じます。
本稿では,表現アライメントの評価課題を紹介する。
感情表現は、単語、語彙と形の両方で表現されるValence-Arousal-Dominance(VAD)次元、絵文字の4つを選択する。
論文 参考訳(メタデータ) (2025-03-14T21:07:56Z) - XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models [100.29953199404905]
語彙重複の少ない言語間でのトークン共有を非強調化することにより,多言語語彙に拡張する新たなアプローチを提案する。
我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-V は低リソースの言語タスクに特に有効であり、マサハナーとアメリカの NLI では XLM-R を 11.2% と 5.8% で上回っている。
論文 参考訳(メタデータ) (2023-01-25T09:15:17Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency,
Syntax, and Semantics [3.4048739113355215]
インターネットコーパスで学習した英語の静的単語埋め込みにおいて,グループベースのバイアスを包括的に分析する。
単一カテゴリー単語埋め込みアソシエーションテストを用いて,性別バイアスの広範性を示す。
語彙の中で最も頻繁な単語1,000のうち、77%が女性よりも男性に関連があることがわかりました。
論文 参考訳(メタデータ) (2022-06-07T15:35:10Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - An Automated Method to Enrich Consumer Health Vocabularies Using GloVe
Word Embeddings and An Auxiliary Lexical Resource [0.0]
平民は、ドメインに共通する専門用語を理解できないため、専門家とのコミュニケーションが困難になる可能性がある。
いくつかの専門用語は、平凡な医学用語を専門的な医学用語にマッピングするために作られており、その逆も同様である。
本稿では,どのドメインの語彙にも適用可能な,平民の語彙を豊かにするための自動手法を提案する。
論文 参考訳(メタデータ) (2021-05-18T20:16:45Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。