論文の概要: MACRONYM: A Large-Scale Dataset for Multilingual and Multi-Domain
Acronym Extraction
- arxiv url: http://arxiv.org/abs/2202.09694v1
- Date: Sat, 19 Feb 2022 23:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 14:51:57.372835
- Title: MACRONYM: A Large-Scale Dataset for Multilingual and Multi-Domain
Acronym Extraction
- Title(参考訳): MACRONYM:マルチ言語とマルチドメインの頭字語抽出のための大規模データセット
- Authors: Amir Pouran Ben Veyseh, Nicole Meister, Seunghyun Yoon, Rajiv Jain,
Franck Dernoncourt, Thien Huu Nguyen
- Abstract要約: 様々なNLPアプリケーションには、頭字語とその拡張形式が必要である。
既存のAE研究の限界の1つは、それらが英語と特定のドメインに限定されていることである。
複数の言語やドメインにアノテートされたデータセットが欠落することは、この分野の研究を妨げる大きな問題となっている。
- 参考スコア(独自算出の注目度): 66.60031336330547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acronym extraction is the task of identifying acronyms and their expanded
forms in texts that is necessary for various NLP applications. Despite major
progress for this task in recent years, one limitation of existing AE research
is that they are limited to the English language and certain domains (i.e.,
scientific and biomedical). As such, challenges of AE in other languages and
domains is mainly unexplored. Lacking annotated datasets in multiple languages
and domains has been a major issue to hinder research in this area. To address
this limitation, we propose a new dataset for multilingual multi-domain AE.
Specifically, 27,200 sentences in 6 typologically different languages and 2
domains, i.e., Legal and Scientific, is manually annotated for AE. Our
extensive experiments on the proposed dataset show that AE in different
languages and different learning settings has unique challenges, emphasizing
the necessity of further research on multilingual and multi-domain AE.
- Abstract(参考訳): 頭字語抽出は、様々なNLPアプリケーションに必要なテキスト中の頭字語とその拡張形式を特定するタスクである。
近年のこの課題の大きな進歩にもかかわらず、既存のAE研究の限界は、それらが英語と特定の領域(すなわち、科学と生物医学)に限定されていることである。
そのため、他の言語やドメインにおけるAEの課題は主に未解明である。
複数の言語やドメインにおける注釈付きデータセットの欠如は、この分野の研究を妨げる大きな問題となっている。
この制限に対処するため,多言語多ドメインAEのための新しいデータセットを提案する。
具体的には、6つの異なる言語と2つのドメイン、すなわち法と科学の27,200の文が、手動でAEに注釈付けされる。
提案したデータセットに対する広範な実験により、異なる言語と異なる学習環境におけるAEには固有の課題があり、多言語および多ドメインAEのさらなる研究の必要性を強調した。
関連論文リスト
- LexGen: Domain-aware Multilingual Lexicon Generation [40.97738267067852]
マルチドメイン設定で6つのインド語のための辞書語を生成する新しいモデルを提案する。
私たちのモデルは、情報をエンコードするドメイン固有層とドメイン生成層で構成されています。
8つの異なるドメインにまたがる6つのインドの言語を対象とした新しいベンチマークデータセットをリリースしました。
論文 参考訳(メタデータ) (2024-05-18T07:02:43Z) - MEMD-ABSA: A Multi-Element Multi-Domain Dataset for Aspect-Based
Sentiment Analysis [23.959356414518957]
5つの領域にまたがる4つの要素をカバーする大規模マルチ要素マルチドメインデータセット(MEMD)を提案する。
複数のABSAサブタスクにおける生成的および非生成的ベースラインをオープンドメイン設定下で評価した。
論文 参考訳(メタデータ) (2023-06-29T14:03:49Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - MINION: a Large-Scale and Diverse Dataset for Multilingual Event
Detection [65.46122357928041]
Event Detection (ED) は、テキスト中のイベント参照のトリガーワードを識別し、分類するタスクである。
主な疑問は、既存のEDモデルが異なる言語でどれだけうまく機能するか、EDが他の言語でどの程度困難であるか、EDの知識とアノテーションが言語間でどの程度うまく伝達できるかである。
EDのための大規模多言語データセット(MINION)を導入し、8つの異なる言語でのイベントを一貫してアノテートする。
論文 参考訳(メタデータ) (2022-11-11T02:09:51Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。