論文の概要: EPIE Dataset: A Corpus For Possible Idiomatic Expressions
- arxiv url: http://arxiv.org/abs/2006.09479v1
- Date: Tue, 16 Jun 2020 19:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:01:23.805982
- Title: EPIE Dataset: A Corpus For Possible Idiomatic Expressions
- Title(参考訳): EPIE Dataset: 可能な慣用表現のためのコーパス
- Authors: Prateek Saxena and Soma Paul
- Abstract要約: 717の慣用表現の語彙例をラベル付けした25206文を含む英語Possibleatic(EPIE)コーパスを提示する。
また、シーケンスラベリングモジュールをトレーニングし、高い精度、精度、リコールスコアで3つの独立したデータセット上でテストすることで、データセットの有用性を示す。
- 参考スコア(独自算出の注目度): 11.891511657648941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Idiomatic expressions have always been a bottleneck for language
comprehension and natural language understanding, specifically for tasks like
Machine Translation(MT). MT systems predominantly produce literal translations
of idiomatic expressions as they do not exhibit generic and linguistically
deterministic patterns which can be exploited for comprehension of the
non-compositional meaning of the expressions. These expressions occur in
parallel corpora used for training, but due to the comparatively high
occurrences of the constituent words of idiomatic expressions in literal
context, the idiomatic meaning gets overpowered by the compositional meaning of
the expression. State of the art Metaphor Detection Systems are able to detect
non-compositional usage at word level but miss out on idiosyncratic phrasal
idiomatic expressions. This creates a dire need for a dataset with a wider
coverage and higher occurrence of commonly occurring idiomatic expressions, the
spans of which can be used for Metaphor Detection. With this in mind, we
present our English Possible Idiomatic Expressions(EPIE) corpus containing
25206 sentences labelled with lexical instances of 717 idiomatic expressions.
These spans also cover literal usages for the given set of idiomatic
expressions. We also present the utility of our dataset by using it to train a
sequence labelling module and testing on three independent datasets with high
accuracy, precision and recall scores.
- Abstract(参考訳): 慣用表現は、言語理解と自然言語理解、特に機械翻訳(mt)のようなタスクにとって、常にボトルネックとなっている。
MTシステムは主に、非構成的意味の理解に活用できる汎用的および言語学的決定論的パターンを提示しないため、慣用的表現のリテラル翻訳を生成する。
これらの表現は、訓練に用いられる並列コーパスに現れるが、リテラル文脈における慣用的な表現の構成語が比較的高いため、慣用的な意味は、その表現の合成的意味に圧倒される。
メタファー検出システム(Metaphor Detection Systems)は、単語レベルでの非合成的使用を検出できるが、慣用的な表現を欠いている。
これにより、より広範なカバレッジと、一般的に発生する慣用的な表現の発生率の高いデータセットが、Metaphor Detectionに使用できるようになる。
このことを念頭に置いて、717の慣用表現の語彙例をラベル付けした25206文を含む、英語のPossible Idiomatic Expressions(EPIE)コーパスを提示する。
これらのスパンは、与えられた慣用表現のセットのリテラル使用法もカバーする。
また,シーケンスラベリングモジュールをトレーニングし,精度,精度,リコールスコアの3つの独立したデータセット上でテストすることにより,データセットの有用性を示す。
関連論文リスト
- Span-Aggregatable, Contextualized Word Embeddings for Effective Phrase Mining [0.22499166814992438]
目的語句が雑音の多い文脈内に存在する場合, 単語の完全文を1つの高次ベクトルで表すだけでは, 効果的な句検索には不十分であることを示す。
本稿では,この手法がフレーズマイニングに有用であるが,有用なスパン表現を得るためには,かなりの計算が必要であることを示す。
論文 参考訳(メタデータ) (2024-05-12T12:08:05Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Cross-Lingual Phrase Retrieval [49.919180978902915]
言語横断検索は、言語間で関連するテキストを検索することを目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
論文 参考訳(メタデータ) (2022-04-19T13:35:50Z) - HIT at SemEval-2022 Task 2: Pre-trained Language Model for Idioms
Detection [23.576133853110324]
同じマルチワード表現は、異なる文で異なる意味を持つことがある。
これらは、文字通りの意味と慣用的な意味の2つのカテゴリに分けられる。
我々は事前訓練された言語モデルを使用し、文脈対応の文埋め込みを提供する。
論文 参考訳(メタデータ) (2022-04-13T02:45:04Z) - Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文 参考訳(メタデータ) (2021-10-19T15:44:28Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z) - Graph-Structured Referring Expression Reasoning in The Wild [105.95488002374158]
接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。
本研究では,シーングラフとシーングラフの推論を行うために,シーングラフガイドモジュールネットワーク(SGMN)を提案する。
また,構造化参照式推論のための大規模実世界のデータセットRef-Reasoningを提案する。
論文 参考訳(メタデータ) (2020-04-19T11:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。