論文の概要: DUKweb: Diachronic word representations from the UK Web Archive corpus
- arxiv url: http://arxiv.org/abs/2107.01076v1
- Date: Fri, 2 Jul 2021 13:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:57:56.350846
- Title: DUKweb: Diachronic word representations from the UK Web Archive corpus
- Title(参考訳): DUKweb: UK Web Archive corpusのダイアクロニックな単語表現
- Authors: Adam Tsakalidis, Pierpaolo Basile, Marya Bazzi, Mihai Cucuringu and
Barbara McGillivray
- Abstract要約: ダイアクロニック語埋め込み(Diachronic word embeddeds)は、その意味を保った単語の時間感応的な表現である。
本稿では,現代英語のダイアクロニック解析のための大規模資源であるDUKwebについて紹介する。
- 参考スコア(独自算出の注目度): 3.9096052202185194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lexical semantic change (detecting shifts in the meaning and usage of words)
is an important task for social and cultural studies as well as for Natural
Language Processing applications. Diachronic word embeddings (time-sensitive
vector representations of words that preserve their meaning) have become the
standard resource for this task. However, given the significant computational
resources needed for their generation, very few resources exist that make
diachronic word embeddings available to the scientific community.
In this paper we present DUKweb, a set of large-scale resources designed for
the diachronic analysis of contemporary English. DUKweb was created from the
JISC UK Web Domain Dataset (1996-2013), a very large archive which collects
resources from the Internet Archive that were hosted on domains ending in
`.uk'. DUKweb consists of a series word co-occurrence matrices and two types of
word embeddings for each year in the JISC UK Web Domain dataset. We show the
reuse potential of DUKweb and its quality standards via a case study on word
meaning change detection.
- Abstract(参考訳): 語彙的意味変化(単語の意味と用法の変化を検出する)は、自然言語処理だけでなく、社会・文化研究においても重要な課題である。
ダイアクロニック単語の埋め込み(意味を保存する単語の時間感受性ベクトル表現)がこのタスクの標準リソースとなっている。
しかし、その世代に必要な重要な計算資源を考えると、ダイアクロニックな単語の埋め込みを科学界で利用できる資源はごくわずかである。
本稿では,現代英語のダイアクロニック解析のための大規模リソースセットであるDUKwebについて述べる。
DUKweb は JISC UK Web Domain Dataset (1996-2013) から作成され、".uk" で終わるドメインにホストされたインターネットアーカイブからリソースを収集する非常に大規模なアーカイブである。
DUKwebは一連の単語共起行列と、JISC UK Web Domainデータセットに毎年2種類の単語埋め込みで構成されている。
dukwebの再利用可能性とその品質基準を,単語の意味変化検出を事例として示す。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - LexGen: Domain-aware Multilingual Lexicon Generation [40.97738267067852]
マルチドメイン設定で6つのインド語のための辞書語を生成する新しいモデルを提案する。
私たちのモデルは、情報をエンコードするドメイン固有層とドメイン生成層で構成されています。
8つの異なるドメインにまたがる6つのインドの言語を対象とした新しいベンチマークデータセットをリリースしました。
論文 参考訳(メタデータ) (2024-05-18T07:02:43Z) - Evaluation of Word Embeddings for the Social Sciences [0.0]
本稿では,37,604の社会科学研究論文に基づく単語埋め込みモデルの作成と評価について述べる。
作成したドメイン固有モデルは,社会科学の概念の大部分をカバーしていることがわかった。
すべての関係型において、意味的関係をより広範囲に網羅している。
論文 参考訳(メタデータ) (2023-02-13T08:23:03Z) - Addressing Issues of Cross-Linguality in Open-Retrieval Question
Answering Systems For Emergent Domains [67.99403521976058]
新型コロナウイルスの緊急ドメインに対する言語横断的オープン検索型質問応答システムについて紹介する。
本システムでは,検索した文書の信頼性を確保するために,学術論文のコーパスを採用している。
深いセマンティック・レトリバーは、我々の英語からすべてのデータに対するトレーニングの恩恵が大きく、言語横断環境ではBM25ベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-01-26T19:27:32Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z) - Deconstructing word embedding algorithms [17.797952730495453]
我々は、最もよく知られた単語埋め込みアルゴリズムのいくつかについて振り返りを提案する。
本研究では,Word2vec,GloVe,その他を共通形式に分解し,実演語埋め込みに必要な共通条件を明らかにした。
論文 参考訳(メタデータ) (2020-11-12T14:23:35Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Computational linguistic assessment of textbook and online learning
media by means of threshold concepts in business education [59.003956312175795]
言語学的観点では、しきい値の概念は特別な語彙の例であり、特定の言語的特徴を示す。
ビジネス教育における63のしきい値の概念のプロファイルは、教科書、新聞、ウィキペディアで調査されている。
3種類のリソースは、しきい値の概念のプロファイルから区別できる。
論文 参考訳(メタデータ) (2020-08-05T12:56:16Z) - An Algorithm for Fuzzification of WordNets, Supported by a Mathematical
Proof [3.684688928766659]
任意の言語のWLDのファジィバージョンを構築するアルゴリズムを提案する。
英語WordNet(FWN)のファジフィケーション版をオンラインで公開する。
論文 参考訳(メタデータ) (2020-06-07T04:47:40Z) - Hybrid Improved Document-level Embedding (HIDE) [5.33024001730262]
ハイブリット改善文書レベルの埋め込みを提案する。
ドメイン情報、音声情報の一部、感情情報をGloVeやWord2Vecなどの既存の単語埋め込みに組み込む。
本稿では,GloVe や Word2Vec などの既存の事前学習語ベクトルの精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-06-01T19:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。