論文の概要: CoAM: Corpus of All-Type Multiword Expressions
- arxiv url: http://arxiv.org/abs/2412.18151v2
- Date: Sat, 31 May 2025 09:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:53.082156
- Title: CoAM: Corpus of All-Type Multiword Expressions
- Title(参考訳): CoAM: All-Type Multiword Expressions コーパス
- Authors: Yusuke Ide, Joshua Tanner, Adam Nohejl, Jacob Hoffman, Justin Vasselli, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: CoAMは、データ品質を向上させるために多段階プロセスを通じて構築された1.3K文のデータセットである。
MWE識別のデータセットで初めて、CoAMのMWEはNounやVerbといった型でタグ付けされ、きめ細かいエラー解析を可能にする。
- 参考スコア(独自算出の注目度): 21.451123924562598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiword expressions (MWEs) refer to idiomatic sequences of multiple words. MWE identification, i.e., detecting MWEs in text, can play a key role in downstream tasks such as machine translation, but existing datasets for the task are inconsistently annotated, limited to a single type of MWE, or limited in size. To enable reliable and comprehensive evaluation, we created CoAM: Corpus of All-Type Multiword Expressions, a dataset of 1.3K sentences constructed through a multi-step process to enhance data quality consisting of human annotation, human review, and automated consistency checking. Additionally, for the first time in a dataset of MWE identification, CoAM's MWEs are tagged with MWE types, such as Noun and Verb, enabling fine-grained error analysis. Annotations for CoAM were collected using a new interface created with our interface generator, which allows easy and flexible annotation of MWEs in any form. Through experiments using CoAM, we find that a fine-tuned large language model outperforms MWEasWSD, which achieved the state-of-the-art performance on the DiMSUM dataset. Furthermore, analysis using our MWE type tagged data reveals that Verb MWEs are easier than Noun MWEs to identify across approaches.
- Abstract(参考訳): MWE(Multiword Expression)は、複数の単語の慣用配列を指す。
MWE識別、すなわちテキストでMWEを検出することは、機械翻訳のような下流タスクにおいて重要な役割を果たすが、タスクの既存のデータセットは一貫性がなく、単一の種類のMWEに限定され、サイズが制限されている。
CoAM: Corpus of All-Type Multiword Expressions, a dataset of 1.3K sentences through a multi-step process to enhance data quality consist of human annotations, human review, and automated consistency check。
さらに、MWE識別のデータセットで初めて、CoAMのMWEは、NounやVerbのようなMWEタイプでタグ付けされ、きめ細かいエラー解析を可能にする。
CoAMのアノテーションは、インターフェースジェネレータで作成された新しいインターフェースを使用して収集され、任意の形式のMWEの容易かつ柔軟なアノテーションを可能にします。
CoAMを用いた実験により、細調整された大言語モデルはMWEasWSDより優れており、DiMSUMデータセットの最先端性能を実現していることがわかった。
さらに、我々のMWE型タグ付きデータを用いて解析した結果、Verb MWEはNoun MWEよりも、複数のアプローチで識別しやすいことがわかった。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - MWE as WSD: Solving Multiword Expression Identification with Word Sense
Disambiguation [0.0]
単語感覚不明瞭化(WSD)への最近のアプローチは、センスグロス(定義)の符号化を利用して性能を向上させる。
本研究では,この手法が,用語情報と文脈情報を用いた学習モデルを用いて,MWE識別に応用可能であることを示す。
提案手法は精度を大幅に向上させ,DiMSUMデータセット上のMWE識別精度を最大1.9F1ポイント向上させ,PARSEME 1.1英語データセット上での競合結果を達成する。
論文 参考訳(メタデータ) (2023-03-12T09:35:42Z) - BERT(s) to Detect Multiword Expressions [9.710464466895521]
MWE(Multiword Expression)は、全体の意味がその部分の意味から派生していない単語群である。
本稿では,MWE検出作業における最先端のニューラルトランスフォーマーについて検討する。
論文 参考訳(メタデータ) (2022-08-16T16:32:23Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Ultra-Fine Entity Typing with Weak Supervision from a Masked Language
Model [39.031515304057585]
最近、よりリッチで超微細な型セットを使用することで、きめ細かいエンティティタイピングを拡張する取り組みが行われている。
BERT Masked Language Model (MLM) を用いた超微細エンティティタイピングのためのトレーニングデータを得る。
文中の言及が与えられた場合、提案手法はBERTの入力を構築し、参照の文脈依存ハイパーネムを予測し、型ラベルとして使用することができる。
論文 参考訳(メタデータ) (2021-06-08T04:43:28Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Detecting Multiword Expression Type Helps Lexical Complexity Assessment [11.347177310504737]
MWE(Multiword Expression)は、その慣用的な性質から単一の語彙単位として扱われるべきレキシムを表す。
複数のNLPアプリケーションは、MWE識別の恩恵を受けることが示されているが、MWEの語彙的複雑さの研究はまだ未発見領域である。
論文 参考訳(メタデータ) (2020-05-12T11:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。