論文の概要: Detecting Multiword Expression Type Helps Lexical Complexity Assessment
- arxiv url: http://arxiv.org/abs/2005.05692v1
- Date: Tue, 12 May 2020 11:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 18:58:55.286986
- Title: Detecting Multiword Expression Type Helps Lexical Complexity Assessment
- Title(参考訳): 多語表現型検出は語彙複雑性評価に役立つ
- Authors: Ekaterina Kochmar, Sian Gooding, and Matthew Shardlow
- Abstract要約: MWE(Multiword Expression)は、その慣用的な性質から単一の語彙単位として扱われるべきレキシムを表す。
複数のNLPアプリケーションは、MWE識別の恩恵を受けることが示されているが、MWEの語彙的複雑さの研究はまだ未発見領域である。
- 参考スコア(独自算出の注目度): 11.347177310504737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiword expressions (MWEs) represent lexemes that should be treated as
single lexical units due to their idiosyncratic nature. Multiple NLP
applications have been shown to benefit from MWE identification, however the
research on lexical complexity of MWEs is still an under-explored area. In this
work, we re-annotate the Complex Word Identification Shared Task 2018 dataset
of Yimam et al. (2017), which provides complexity scores for a range of
lexemes, with the types of MWEs. We release the MWE-annotated dataset with this
paper, and we believe this dataset represents a valuable resource for the text
simplification community. In addition, we investigate which types of
expressions are most problematic for native and non-native readers. Finally, we
show that a lexical complexity assessment system benefits from the information
about MWE types.
- Abstract(参考訳): MWE(Multiword Expression)は、その慣用的な性質から単一の語彙単位として扱われるべきレキシムを表す。
複数のNLPアプリケーションは、MWE識別の恩恵を受けることが示されているが、MWEの語彙的複雑さの研究はまだ未探索領域である。
本研究は,Yimam et al. (2017) の複合単語識別共有タスク 2018 データセットを再注釈し,MWE のタイプを用いて,様々な語彙に対する複雑性スコアを提供する。
本論文では,mweの注釈付きデータセットをリリースし,このデータセットはテキスト簡易化コミュニティにとって貴重なリソースであると信じている。
さらに、ネイティブおよび非ネイティブ読者にとって最も問題となる表現形式について検討する。
最後に,MWE型に関する情報から,語彙的複雑性評価システムの有効性を示す。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual
Semantic Matching [62.53203836521321]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Extracting Polymer Nanocomposite Samples from Full-Length Documents [6.25070848511355]
本稿では, 高分子ナノコンポジット (PNC) のサンプルリストの抽出に大規模言語モデル (LLM) を用いることを検討した。
この課題は、テキスト中に多くの属性が散在するPNCサンプルの複雑な性質にある。
論文 参考訳(メタデータ) (2024-03-01T03:51:56Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - A Novel Multidimensional Reference Model For Heterogeneous Textual
Datasets Using Context, Semantic And Syntactic Clues [4.453735522794044]
本研究の目的は、異種データセットのカテゴリを用いた新しい多次元参照モデルを作ることである。
MRMの主な貢献は、シノニム、アントロニム、フォーマル、語彙語順、共起といった言語カテゴリーの索引付けに基づいて各用語でそれぞれのトークンをチェックすることである。
論文 参考訳(メタデータ) (2023-11-10T17:02:25Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [98.76021956492697]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for
Inferring Online Health Texts [0.0]
低リソースの健康NLPタスクをモデル化する手段として,抽象表現(AMR)グラフを用いる。
AMRは、多文入力を表現し、複雑な用語から抽象化し、長距離関係をモデル化するため、オンラインの健康テキストをモデル化するのに適している。
本実験は,テキスト埋め込みをセマンティックグラフ埋め込みで拡張することにより,6つの低リソースなNLPタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-18T15:37:30Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Predicting Lexical Complexity in English Texts [6.556254680121433]
ほとんどのテキスト簡略化の最初のステップは、特定のターゲット人口のためにどの単語が複雑と見なされるかを予測することです。
このタスクは一般に複雑単語識別(CWI)と呼ばれ、しばしば教師付き分類問題としてモデル化される。
このようなシステムのトレーニングには、複雑度について単語や時折多語表現がラベル付けされる注釈付きデータセットが必要となる。
論文 参考訳(メタデータ) (2021-02-17T14:05:30Z) - Zero-Shot Clinical Acronym Expansion via Latent Meaning Cells [2.5374060352463697]
本稿では,単語の文脈的表現を局所的文脈とメタデータを組み合わせて学習する潜時変数モデルであるLatent Meaning Cellsを紹介する。
3つのデータセットにまたがるゼロショット臨床頭字語拡張作業におけるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-09-29T00:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。