論文の概要: Evaluation of Word Embeddings for the Social Sciences
- arxiv url: http://arxiv.org/abs/2302.06174v1
- Date: Mon, 13 Feb 2023 08:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:13:55.931991
- Title: Evaluation of Word Embeddings for the Social Sciences
- Title(参考訳): 社会科学における単語埋め込みの評価
- Authors: Ricardo Schiffers, Dagmar Kern, Daniel Hienert
- Abstract要約: 本稿では,37,604の社会科学研究論文に基づく単語埋め込みモデルの作成と評価について述べる。
作成したドメイン固有モデルは,社会科学の概念の大部分をカバーしていることがわかった。
すべての関係型において、意味的関係をより広範囲に網羅している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings are an essential instrument in many NLP tasks. Most available
resources are trained on general language from Web corpora or Wikipedia dumps.
However, word embeddings for domain-specific language are rare, in particular
for the social science domain. Therefore, in this work, we describe the
creation and evaluation of word embedding models based on 37,604 open-access
social science research papers. In the evaluation, we compare domain-specific
and general language models for (i) language coverage, (ii) diversity, and
(iii) semantic relationships. We found that the created domain-specific model,
even with a relatively small vocabulary size, covers a large part of social
science concepts, their neighborhoods are diverse in comparison to more general
models. Across all relation types, we found a more extensive coverage of
semantic relationships.
- Abstract(参考訳): 単語埋め込みは多くのNLPタスクにおいて必須の道具である。
ほとんどの利用可能なリソースは、WebコーパスやWikipediaダンプから一般言語でトレーニングされている。
しかし、特に社会科学領域では、ドメイン固有の言語に対する単語の埋め込みはまれである。
そこで本研究では,37,604種類のオープンアクセス社会科学研究論文に基づく単語埋め込みモデルの作成と評価について述べる。
評価では、ドメイン固有言語モデルと一般言語モデルの比較を行う。
(i)言語の範囲。
(ii)多様性、及び
(iii)意味関係。
作成したドメイン固有モデルは,比較的小さな語彙サイズであっても,社会科学の概念の大部分をカバーしているが,より一般的なモデルと比較して,その近傍は多様である。
すべての関係型において、意味関係をより広範囲に網羅している。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Domain-specific long text classification from sparse relevant information [3.3611255314174815]
本稿では,候補文の検索に候補単語の短いリストを利用する階層モデルを提案する。
用語(s)埋め込みのプーリングは、分類される文書表現を必要とする。
より狭い階層モデルは、ドメイン固有のコンテキストで関連する長いドキュメントを取得するために、より大きな言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-23T17:54:19Z) - LexGen: Domain-aware Multilingual Lexicon Generation [40.97738267067852]
マルチドメイン設定で6つのインド語のための辞書語を生成する新しいモデルを提案する。
私たちのモデルは、情報をエンコードするドメイン固有層とドメイン生成層で構成されています。
8つの異なるドメインにまたがる6つのインドの言語を対象とした新しいベンチマークデータセットをリリースしました。
論文 参考訳(メタデータ) (2024-05-18T07:02:43Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Domain-Specific Word Embeddings with Structure Prediction [3.057136788672694]
ニューヨーク・タイムズの記事と2つの英語のウィキペディアデータセットに科学と哲学に関する記事を載せた実証的な評価を提示する。
提案手法は,Word2Vec with Structure Prediction (W2VPred) と呼ばれ,一般的なアナロジーテストにおいて,ベースラインよりも優れた性能を提供する。
デジタル人文科学の分野でのユースケースとして、ドイツ語テキストアーカイブからハイ文学のための新しい研究課題を提起する方法を実証する。
論文 参考訳(メタデータ) (2022-10-06T12:45:48Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Computational linguistic assessment of textbook and online learning
media by means of threshold concepts in business education [59.003956312175795]
言語学的観点では、しきい値の概念は特別な語彙の例であり、特定の言語的特徴を示す。
ビジネス教育における63のしきい値の概念のプロファイルは、教科書、新聞、ウィキペディアで調査されている。
3種類のリソースは、しきい値の概念のプロファイルから区別できる。
論文 参考訳(メタデータ) (2020-08-05T12:56:16Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。