論文の概要: NYTWIT: A Dataset of Novel Words in the New York Times
- arxiv url: http://arxiv.org/abs/2003.03444v3
- Date: Fri, 23 Oct 2020 18:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:19:46.124219
- Title: NYTWIT: A Dataset of Novel Words in the New York Times
- Title(参考訳): NYTWIT:ニューヨークタイムズの新しい単語のデータセット
- Authors: Yuval Pinter and Cassandra L. Jacobs and Max Bittker
- Abstract要約: 私たちはNew York Times Word Innovation Typesデータセット(NYTWIT)を紹介します。
本研究は,非文脈的・文脈的ノベルティクラスの予測に基礎となる結果を示し,最先端のNLPシステムにも改善の余地があることを示唆する。
- 参考スコア(独自算出の注目度): 14.2716357516489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the New York Times Word Innovation Types dataset, or NYTWIT, a
collection of over 2,500 novel English words published in the New York Times
between November 2017 and March 2019, manually annotated for their class of
novelty (such as lexical derivation, dialectal variation, blending, or
compounding). We present baseline results for both uncontextual and contextual
prediction of novelty class, showing that there is room for improvement even
for state-of-the-art NLP systems. We hope this resource will prove useful for
linguists and NLP practitioners by providing a real-world environment of novel
word appearance.
- Abstract(参考訳): 我々は、2017年11月から2019年3月までにニューヨーク・タイムズで発行された2500以上の小説英語単語のコレクションであるnew york timesのinnovation types dataset(nytwit)を紹介する。
本研究は,非文脈的・文脈的ノベルティクラス予測のベースラインとして,最先端のNLPシステムにも改善の余地があることを示す。
私たちは、このリソースが言語学者やnlp実践者にとって、新しい単語の出現の現実世界の環境を提供することで役に立つことを望んでいる。
関連論文リスト
- Injecting Wiktionary to improve token-level contextual representations
using contrastive learning [2.761009930426063]
我々は、英語ウィキオンリーを用いて、レキシコンを代替の監督源として注入する方法を検討する。
また、次元の減少が結果の文脈的単語の埋め込みにどのように影響するかを検証する。
論文 参考訳(メタデータ) (2024-02-12T17:22:42Z) - SciMON: Scientific Inspiration Machines Optimized for Novelty [68.46036589035539]
文献に基づく新たな科学的方向を生成するために,ニューラルランゲージモデルを探索し,拡張する。
モデルが入力背景コンテキストとして使用される新しい設定で、劇的な出発をとっています。
本稿では,過去の科学的論文から「吸入」を抽出するモデリングフレームワークであるSciMONを紹介する。
論文 参考訳(メタデータ) (2023-05-23T17:12:08Z) - News Category Dataset [1.7513645771137178]
HuffPostから入手した2012年から2018年までの約200万のニュースの見出しを含むNews Categoryデータセットを提示する。
本稿では,データセットから新たな知見を導き,データセットの既存および潜在的応用について述べる。
論文 参考訳(メタデータ) (2022-09-23T06:13:16Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Word-level Human Interpretable Scoring Mechanism for Novel Text
Detection Using Tsetlin Machines [16.457778420360537]
新規性への貢献度に応じて個々の単語を評価するためのTsetlin マシンアーキテクチャを提案する。
本手法はtm節で捉えた言語パターンを用いて,新しい文書の記述を符号化する。
次に、この記述を採用し、単語がドキュメントの新規作成にどれだけ貢献しているかを測定します。
論文 参考訳(メタデータ) (2021-05-10T23:41:14Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - Detecting New Word Meanings: A Comparison of Word Embedding Models in
Spanish [1.5356167668895644]
意味的ネオロジズム(英: Semantic neologisms, SN)は、その形態を維持しつつ、新しい意味を持つ単語である。
SNを半自動で検出するために,以下の戦略の組み合わせを実装したシステムを開発した。
本稿では,Word2Vec,Sense2Vec,FastTextという単語埋め込みモデルについて検討する。
論文 参考訳(メタデータ) (2020-01-12T21:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。