Fugu-MT 論文翻訳(概要): Detecting Multiword Expression Type Helps Lexical Complexity Assessment

論文の概要: Detecting Multiword Expression Type Helps Lexical Complexity Assessment

arxiv url: http://arxiv.org/abs/2005.05692v1
Date: Tue, 12 May 2020 11:25:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 18:58:55.286986
Title: Detecting Multiword Expression Type Helps Lexical Complexity Assessment
Title（参考訳）: 多語表現型検出は語彙複雑性評価に役立つ
Authors: Ekaterina Kochmar, Sian Gooding, and Matthew Shardlow
Abstract要約: MWE(Multiword Expression)は、その慣用的な性質から単一の語彙単位として扱われるべきレキシムを表す。複数のNLPアプリケーションは、MWE識別の恩恵を受けることが示されているが、MWEの語彙的複雑さの研究はまだ未発見領域である。
参考スコア（独自算出の注目度）: 11.347177310504737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiword expressions (MWEs) represent lexemes that should be treated as single lexical units due to their idiosyncratic nature. Multiple NLP applications have been shown to benefit from MWE identification, however the research on lexical complexity of MWEs is still an under-explored area. In this work, we re-annotate the Complex Word Identification Shared Task 2018 dataset of Yimam et al. (2017), which provides complexity scores for a range of lexemes, with the types of MWEs. We release the MWE-annotated dataset with this paper, and we believe this dataset represents a valuable resource for the text simplification community. In addition, we investigate which types of expressions are most problematic for native and non-native readers. Finally, we show that a lexical complexity assessment system benefits from the information about MWE types.
Abstract（参考訳）: MWE(Multiword Expression)は、その慣用的な性質から単一の語彙単位として扱われるべきレキシムを表す。複数のNLPアプリケーションは、MWE識別の恩恵を受けることが示されているが、MWEの語彙的複雑さの研究はまだ未探索領域である。本研究は,Yimam et al. (2017) の複合単語識別共有タスク 2018 データセットを再注釈し,MWE のタイプを用いて,様々な語彙に対する複雑性スコアを提供する。本論文では,mweの注釈付きデータセットをリリースし,このデータセットはテキスト簡易化コミュニティにとって貴重なリソースであると信じている。さらに、ネイティブおよび非ネイティブ読者にとって最も問題となる表現形式について検討する。最後に,MWE型に関する情報から,語彙的複雑性評価システムの有効性を示す。

関連論文リスト

MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
CoAM: Corpus of All-Type Multiword Expressions [21.451123924562598]
MWE(Multiword Expression)は、複数の単語の慣用配列を指す。 MWE識別のための既存のデータセットは、矛盾なく注釈付けされ、単一の種類のMWEに制限されるか、サイズが制限される。 CoAMは、データ品質を向上させるために多段階プロセスを通じて構築された1.3K文のデータセットである。
論文参考訳（メタデータ） (2024-12-24T04:09:33Z)
MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文参考訳（メタデータ） (2024-06-11T16:26:18Z)
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。 TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文参考訳（メタデータ） (2024-06-05T20:32:56Z)
Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。 AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文参考訳（メタデータ） (2024-05-02T17:32:59Z)
A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文参考訳（メタデータ） (2024-03-05T13:55:16Z)
Extracting Polymer Nanocomposite Samples from Full-Length Documents [6.25070848511355]
本稿では, 高分子ナノコンポジット (PNC) のサンプルリストの抽出に大規模言語モデル (LLM) を用いることを検討した。この課題は、テキスト中に多くの属性が散在するPNCサンプルの複雑な性質にある。
論文参考訳（メタデータ） (2024-03-01T03:51:56Z)
SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文参考訳（メタデータ） (2023-11-08T18:46:32Z)
Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for Inferring Online Health Texts [0.0]
低リソースの健康NLPタスクをモデル化する手段として,抽象表現(AMR)グラフを用いる。 AMRは、多文入力を表現し、複雑な用語から抽象化し、長距離関係をモデル化するため、オンラインの健康テキストをモデル化するのに適している。本実験は,テキスト埋め込みをセマンティックグラフ埋め込みで拡張することにより,6つの低リソースなNLPタスクの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2023-09-18T15:37:30Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Always Keep your Target in Mind: Studying Semantics and Improving Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-06-07T16:16:19Z)
Predicting Lexical Complexity in English Texts [6.556254680121433]
ほとんどのテキスト簡略化の最初のステップは、特定のターゲット人口のためにどの単語が複雑と見なされるかを予測することです。このタスクは一般に複雑単語識別(CWI)と呼ばれ、しばしば教師付き分類問題としてモデル化される。このようなシステムのトレーニングには、複雑度について単語や時折多語表現がラベル付けされる注釈付きデータセットが必要となる。
論文参考訳（メタデータ） (2021-02-17T14:05:30Z)
Zero-Shot Clinical Acronym Expansion via Latent Meaning Cells [2.5374060352463697]
本稿では,単語の文脈的表現を局所的文脈とメタデータを組み合わせて学習する潜時変数モデルであるLatent Meaning Cellsを紹介する。 3つのデータセットにまたがるゼロショット臨床頭字語拡張作業におけるモデルの評価を行った。
論文参考訳（メタデータ） (2020-09-29T00:28:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。