論文の概要: Potential Idiomatic Expression (PIE)-English: Corpus for Classes of
Idioms
- arxiv url: http://arxiv.org/abs/2105.03280v1
- Date: Sun, 25 Apr 2021 13:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 11:01:35.995265
- Title: Potential Idiomatic Expression (PIE)-English: Corpus for Classes of
Idioms
- Title(参考訳): 潜在的慣用表現(PIE)-英: Corpus for Classes of Idioms
- Authors: Tosin P. Adewumi, Saleha Javed, Roshanak Vadoodi, Aparajita Tripathy,
Konstantina Nikolaidou, Foteini Liwicki and Marcus Liwicki
- Abstract要約: これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のデータセットである。
このデータセットは、10のクラス(または感覚)から約1200のイディオム(それらの意味を持つ)を持つ20,100以上のサンプルを含んでいる。
- 参考スコア(独自算出の注目度): 1.6111818380407035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a fairly large, Potential Idiomatic Expression (PIE) dataset for
Natural Language Processing (NLP) in English. The challenges with NLP systems
with regards to tasks such as Machine Translation (MT), word sense
disambiguation (WSD) and information retrieval make it imperative to have a
labelled idioms dataset with classes such as it is in this work. To the best of
the authors' knowledge, this is the first idioms corpus with classes of idioms
beyond the literal and the general idioms classification. In particular, the
following classes are labelled in the dataset: metaphor, simile, euphemism,
parallelism, personification, oxymoron, paradox, hyperbole, irony and literal.
Many past efforts have been limited in the corpus size and classes of samples
but this dataset contains over 20,100 samples with almost 1,200 cases of idioms
(with their meanings) from 10 classes (or senses). The corpus may also be
extended by researchers to meet specific needs. The corpus has part of speech
(PoS) tagging from the NLTK library. Classification experiments performed on
the corpus to obtain a baseline and comparison among three common models,
including the BERT model, give good results. We also make publicly available
the corpus and the relevant codes for working with it for NLP tasks.
- Abstract(参考訳): 我々は、自然言語処理(NLP)のためのかなり大きな潜在慣用表現(PIE)データセットを英語で提示する。
機械翻訳(MT)、単語感覚の曖昧化(WSD)、情報検索といったタスクに関するNLPシステムにおける課題は、この作業のクラスのようなラベル付きイディオムデータセットを持つことを必須にしている。
著者の知る限りでは、これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のイディオムコーパスである。
特に、以下のクラスはデータセットにラベル付けされている: メタファ、シミール、オイフェミズム、並列主義、人格化、オキシモロン、パラドックス、ハイパーボイル、皮肉、リテラル。
過去の多くの試みは、コーパスサイズとサンプルのクラスで制限されてきたが、このデータセットは10のクラス(または感覚)から約1,200のイディオムのケースを持つ20,100以上のサンプルを含んでいる。
コーパスは、研究者が特定のニーズを満たすために拡張することもできる。
コーパスには、NLTKライブラリからの音声タグ(PoS)の一部が含まれている。
BERTモデルを含む3つの一般的なモデルのベースラインと比較を得るためにコーパスで実施された分類実験は良い結果を得た。
また、NLPタスクのためのコーパスと関連するコードも公開しています。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Vector Representations of Idioms in Conversational Systems [1.6507910904669727]
我々は,2つの課題に対して,潜在的表現(PIE)-英語イディオムコーパスを利用する。
SoTA T5モデルを用いて分類作業において,98%のマクロF1スコアの最先端(SoTA)を達成した。
その結果、イディオムコーパスで訓練されたモデルは、イディオム71.9%を含むプロンプトに対してより適合した反応を生じさせることがわかった。
論文 参考訳(メタデータ) (2022-05-07T14:50:05Z) - Cross-Lingual Phrase Retrieval [49.919180978902915]
言語横断検索は、言語間で関連するテキストを検索することを目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
論文 参考訳(メタデータ) (2022-04-19T13:35:50Z) - Cross-lingual Transfer for Text Classification with Dictionary-based
Heterogeneous Graph [10.64488240379972]
言語間テキスト分類では,高ソース言語におけるタスク固有トレーニングデータが利用可能であることが求められている。
このようなトレーニングデータの収集は,ラベル付けコストやタスク特性,プライバシの懸念などによって不可能になる可能性がある。
本稿では,ハイソース言語とバイリンガル辞書のタスク非依存語埋め込みのみを利用する代替手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T16:40:40Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。