論文の概要: Detecting Multiword Expression Type Helps Lexical Complexity Assessment
- arxiv url: http://arxiv.org/abs/2005.05692v1
- Date: Tue, 12 May 2020 11:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 18:58:55.286986
- Title: Detecting Multiword Expression Type Helps Lexical Complexity Assessment
- Title(参考訳): 多語表現型検出は語彙複雑性評価に役立つ
- Authors: Ekaterina Kochmar, Sian Gooding, and Matthew Shardlow
- Abstract要約: MWE(Multiword Expression)は、その慣用的な性質から単一の語彙単位として扱われるべきレキシムを表す。
複数のNLPアプリケーションは、MWE識別の恩恵を受けることが示されているが、MWEの語彙的複雑さの研究はまだ未発見領域である。
- 参考スコア(独自算出の注目度): 11.347177310504737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiword expressions (MWEs) represent lexemes that should be treated as
single lexical units due to their idiosyncratic nature. Multiple NLP
applications have been shown to benefit from MWE identification, however the
research on lexical complexity of MWEs is still an under-explored area. In this
work, we re-annotate the Complex Word Identification Shared Task 2018 dataset
of Yimam et al. (2017), which provides complexity scores for a range of
lexemes, with the types of MWEs. We release the MWE-annotated dataset with this
paper, and we believe this dataset represents a valuable resource for the text
simplification community. In addition, we investigate which types of
expressions are most problematic for native and non-native readers. Finally, we
show that a lexical complexity assessment system benefits from the information
about MWE types.
- Abstract(参考訳): MWE(Multiword Expression)は、その慣用的な性質から単一の語彙単位として扱われるべきレキシムを表す。
複数のNLPアプリケーションは、MWE識別の恩恵を受けることが示されているが、MWEの語彙的複雑さの研究はまだ未探索領域である。
本研究は,Yimam et al. (2017) の複合単語識別共有タスク 2018 データセットを再注釈し,MWE のタイプを用いて,様々な語彙に対する複雑性スコアを提供する。
本論文では,mweの注釈付きデータセットをリリースし,このデータセットはテキスト簡易化コミュニティにとって貴重なリソースであると信じている。
さらに、ネイティブおよび非ネイティブ読者にとって最も問題となる表現形式について検討する。
最後に,MWE型に関する情報から,語彙的複雑性評価システムの有効性を示す。
関連論文リスト
- MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Extracting Polymer Nanocomposite Samples from Full-Length Documents [6.25070848511355]
本稿では, 高分子ナノコンポジット (PNC) のサンプルリストの抽出に大規模言語モデル (LLM) を用いることを検討した。
この課題は、テキスト中に多くの属性が散在するPNCサンプルの複雑な性質にある。
論文 参考訳(メタデータ) (2024-03-01T03:51:56Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for
Inferring Online Health Texts [0.0]
低リソースの健康NLPタスクをモデル化する手段として,抽象表現(AMR)グラフを用いる。
AMRは、多文入力を表現し、複雑な用語から抽象化し、長距離関係をモデル化するため、オンラインの健康テキストをモデル化するのに適している。
本実験は,テキスト埋め込みをセマンティックグラフ埋め込みで拡張することにより,6つの低リソースなNLPタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-18T15:37:30Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Predicting Lexical Complexity in English Texts [6.556254680121433]
ほとんどのテキスト簡略化の最初のステップは、特定のターゲット人口のためにどの単語が複雑と見なされるかを予測することです。
このタスクは一般に複雑単語識別(CWI)と呼ばれ、しばしば教師付き分類問題としてモデル化される。
このようなシステムのトレーニングには、複雑度について単語や時折多語表現がラベル付けされる注釈付きデータセットが必要となる。
論文 参考訳(メタデータ) (2021-02-17T14:05:30Z) - Zero-Shot Clinical Acronym Expansion via Latent Meaning Cells [2.5374060352463697]
本稿では,単語の文脈的表現を局所的文脈とメタデータを組み合わせて学習する潜時変数モデルであるLatent Meaning Cellsを紹介する。
3つのデータセットにまたがるゼロショット臨床頭字語拡張作業におけるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-09-29T00:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。