論文の概要: CoAM: Corpus of All-Type Multiword Expressions
- arxiv url: http://arxiv.org/abs/2412.18151v1
- Date: Tue, 24 Dec 2024 04:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:34.389405
- Title: CoAM: Corpus of All-Type Multiword Expressions
- Title(参考訳): CoAM: All-Type Multiword Expressions コーパス
- Authors: Yusuke Ide, Joshua Tanner, Adam Nohejl, Jacob Hoffman, Justin Vasselli, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: MWE(Multiword Expression)は、複数の単語の慣用配列を指す。
MWE識別のための既存のデータセットは、矛盾なく注釈付けされ、単一の種類のMWEに制限されるか、サイズが制限される。
CoAMは、データ品質を向上させるために多段階プロセスを通じて構築された1.3K文のデータセットである。
- 参考スコア(独自算出の注目度): 21.451123924562598
- License:
- Abstract: Multiword expressions (MWEs) refer to idiomatic sequences of multiple words. MWE identification, i.e., detecting MWEs in text, can play a key role in downstream tasks such as machine translation. Existing datasets for MWE identification are inconsistently annotated, limited to a single type of MWE, or limited in size. To enable reliable and comprehensive evaluation, we created CoAM: Corpus of All-Type Multiword Expressions, a dataset of 1.3K sentences constructed through a multi-step process to enhance data quality consisting of human annotation, human review, and automated consistency checking. MWEs in CoAM are tagged with MWE types, such as Noun and Verb, to enable fine-grained error analysis. Annotations for CoAM were collected using a new interface created with our interface generator, which allows easy and flexible annotation of MWEs in any form, including discontinuous ones. Through experiments using CoAM, we find that a fine-tuned large language model outperforms the current state-of-the-art approach for MWE identification. Furthermore, analysis using our MWE type tagged data reveals that Verb MWEs are easier than Noun MWEs to identify across approaches.
- Abstract(参考訳): MWE(Multiword Expression)は、複数の単語の慣用配列を指す。
MWE識別、すなわちテキスト中のMWEを検出することは、機械翻訳などの下流タスクにおいて重要な役割を果たす。
MWE識別のための既存のデータセットは、矛盾なく注釈付けされ、単一の種類のMWEに制限されるか、サイズが制限される。
CoAM: Corpus of All-Type Multiword Expressions, a dataset of 1.3K sentences through a multi-step process to enhance data quality consist of human annotations, human review, and automated consistency check。
CoAMのMWEは、NounやVerbのようなMWEタイプでタグ付けされ、きめ細かいエラー解析を可能にする。
CoAMのアノテーションは、インターフェースジェネレータで作成された新しいインターフェースを使用して収集され、不連続なアノテーションを含む任意の形式のMWEの容易かつ柔軟なアノテーションを可能にします。
CoAMを用いた実験により、細調整された大規模言語モデルは、MWE識別のための最先端のアプローチよりも優れていることがわかった。
さらに、我々のMWE型タグ付きデータを用いて解析した結果、Verb MWEはNoun MWEよりも、複数のアプローチで識別しやすいことがわかった。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - MWE as WSD: Solving Multiword Expression Identification with Word Sense
Disambiguation [0.0]
単語感覚不明瞭化(WSD)への最近のアプローチは、センスグロス(定義)の符号化を利用して性能を向上させる。
本研究では,この手法が,用語情報と文脈情報を用いた学習モデルを用いて,MWE識別に応用可能であることを示す。
提案手法は精度を大幅に向上させ,DiMSUMデータセット上のMWE識別精度を最大1.9F1ポイント向上させ,PARSEME 1.1英語データセット上での競合結果を達成する。
論文 参考訳(メタデータ) (2023-03-12T09:35:42Z) - BERT(s) to Detect Multiword Expressions [9.710464466895521]
MWE(Multiword Expression)は、全体の意味がその部分の意味から派生していない単語群である。
本稿では,MWE検出作業における最先端のニューラルトランスフォーマーについて検討する。
論文 参考訳(メタデータ) (2022-08-16T16:32:23Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Ultra-Fine Entity Typing with Weak Supervision from a Masked Language
Model [39.031515304057585]
最近、よりリッチで超微細な型セットを使用することで、きめ細かいエンティティタイピングを拡張する取り組みが行われている。
BERT Masked Language Model (MLM) を用いた超微細エンティティタイピングのためのトレーニングデータを得る。
文中の言及が与えられた場合、提案手法はBERTの入力を構築し、参照の文脈依存ハイパーネムを予測し、型ラベルとして使用することができる。
論文 参考訳(メタデータ) (2021-06-08T04:43:28Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Detecting Multiword Expression Type Helps Lexical Complexity Assessment [11.347177310504737]
MWE(Multiword Expression)は、その慣用的な性質から単一の語彙単位として扱われるべきレキシムを表す。
複数のNLPアプリケーションは、MWE識別の恩恵を受けることが示されているが、MWEの語彙的複雑さの研究はまだ未発見領域である。
論文 参考訳(メタデータ) (2020-05-12T11:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。