論文の概要: HIT at SemEval-2022 Task 2: Pre-trained Language Model for Idioms
Detection
- arxiv url: http://arxiv.org/abs/2204.06145v1
- Date: Wed, 13 Apr 2022 02:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 12:49:28.145128
- Title: HIT at SemEval-2022 Task 2: Pre-trained Language Model for Idioms
Detection
- Title(参考訳): HIT at SemEval-2022 Task 2: Idioms Detectionのための事前訓練言語モデル
- Authors: Zheng Chu, Ziqing Yang, Yiming Cui, Zhigang Chen, Ming Liu
- Abstract要約: 同じマルチワード表現は、異なる文で異なる意味を持つことがある。
これらは、文字通りの意味と慣用的な意味の2つのカテゴリに分けられる。
我々は事前訓練された言語モデルを使用し、文脈対応の文埋め込みを提供する。
- 参考スコア(独自算出の注目度): 23.576133853110324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The same multi-word expressions may have different meanings in different
sentences. They can be mainly divided into two categories, which are literal
meaning and idiomatic meaning. Non-contextual-based methods perform poorly on
this problem, and we need contextual embedding to understand the idiomatic
meaning of multi-word expressions correctly. We use a pre-trained language
model, which can provide a context-aware sentence embedding, to detect whether
multi-word expression in the sentence is idiomatic usage.
- Abstract(参考訳): 同じマルチワード表現は、異なる文で異なる意味を持つ。
主に、文字通りの意味と慣用的な意味の2つのカテゴリーに分けられる。
非文脈的手法はこの問題に対して不十分であり,マルチワード表現の慣用的意味を正しく理解するにはコンテキスト埋め込みが必要である。
文中のマルチワード表現が慣用的用法であるかどうかを検出するために,文脈認識型文埋め込みを提供する事前学習言語モデルを用いる。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Detecting Unseen Multiword Expressions in American Sign Language [1.2691047660244332]
我々はGloVeから単語埋め込みを適用した2つのシステムを用いて、これらのレキシムが複数単語表現を構成するか否かを予測した。
単語の埋め込みは、正確な精度で非合成性を検出するデータを持っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-30T00:54:59Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - UAlberta at SemEval 2022 Task 2: Leveraging Glosses and Translations for
Multilingual Idiomaticity Detection [4.66831886752751]
本稿では,SemEval-2022タスク2における多言語的慣用性検出のためのアルバータ大学システムについて述べる。
慣用的表現が非合成的という仮定の下では,表現の個々の単語の意味に関する情報を二項分類器に統合する。
2つ目の方法は文脈で表現を翻訳し、語彙知識ベースを用いて翻訳がリテラルであるかどうかを判定する。
論文 参考訳(メタデータ) (2022-05-27T16:35:00Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z) - EPIE Dataset: A Corpus For Possible Idiomatic Expressions [11.891511657648941]
717の慣用表現の語彙例をラベル付けした25206文を含む英語Possibleatic(EPIE)コーパスを提示する。
また、シーケンスラベリングモジュールをトレーニングし、高い精度、精度、リコールスコアで3つの独立したデータセット上でテストすることで、データセットの有用性を示す。
論文 参考訳(メタデータ) (2020-06-16T19:43:30Z) - SLAM-Inspired Simultaneous Contextualization and Interpreting for
Incremental Conversation Sentences [0.0]
逐次文中の多文単語の文脈と解釈を動的に推定する手法を提案する。
SCAINアルゴリズムを用いることで、文脈と単語の解釈の相互依存性を逐次最適化し、新しい解釈をオンラインで得ることができる。
論文 参考訳(メタデータ) (2020-05-29T16:40:27Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。