論文の概要: GLADIS: A General and Large Acronym Disambiguation Benchmark
- arxiv url: http://arxiv.org/abs/2302.01860v1
- Date: Fri, 3 Feb 2023 17:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 15:35:20.309066
- Title: GLADIS: A General and Large Acronym Disambiguation Benchmark
- Title(参考訳): GLADIS: 一般的な大語彙の曖昧さベンチマーク
- Authors: Lihu Chen, Ga\"el Varoquaux, Fabian M. Suchanek
- Abstract要約: Acronym Disambiguation (AD)は、バイオメディカルレポート、科学論文、検索エンジンクエリなど、様々な情報源の自然言語理解に不可欠である。
既存の頭字語不明瞭なベンチマークとツールは特定のドメインに限られており、以前のベンチマークのサイズはかなり小さい。
我々は,(1)1.5Mの頭字語と6.4Mの長文からなるより大きな頭字語辞書,(2)1千万文の事前学習コーパス,(3)一般,科学的,生物医学的な領域をカバーする3つのデータセットからなるGLADISという新しいベンチマークを構築した。
- 参考スコア(独自算出の注目度): 5.672132510411465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Acronym Disambiguation (AD) is crucial for natural language understanding on
various sources, including biomedical reports, scientific papers, and search
engine queries. However, existing acronym disambiguation benchmarks and tools
are limited to specific domains, and the size of prior benchmarks is rather
small. To accelerate the research on acronym disambiguation, we construct a new
benchmark named GLADIS with three components: (1) a much larger acronym
dictionary with 1.5M acronyms and 6.4M long forms; (2) a pre-training corpus
with 160 million sentences; (3) three datasets that cover the general,
scientific, and biomedical domains. We then pre-train a language model,
\emph{AcroBERT}, on our constructed corpus for general acronym disambiguation,
and show the challenges and values of our new benchmark.
- Abstract(参考訳): Acronym Disambiguation (AD)は、バイオメディカルレポート、科学論文、検索エンジンクエリなど、様々な情報源の自然言語理解に不可欠である。
しかし、既存の頭文字の曖昧さのベンチマークやツールは特定のドメインに限定されており、以前のベンチマークのサイズは比較的小さい。
頭字語曖昧化の研究を加速するため,(1)150万の頭字語と6.4万の長文からなるより大きな頭字語辞書,(2)1億6000万の文からなる事前学習コーパス,(3)一般,科学,生物医学の領域をカバーする3つのデータセットの3つの要素からなるGLADISというベンチマークを構築した。
次に、一般的な頭字語曖昧化のために構築したコーパス上で、言語モデル \emph{AcroBERT} を事前訓練し、新しいベンチマークの課題と価値を示す。
関連論文リスト
- On Translating Technical Terminology: A Translation Workflow for
Machine-Translated Acronyms [3.053989095162017]
技術的な用語、特に頭字語を翻訳する、重要なステップが見逃されていることが分かりました。
Google Translateのような最先端の機械翻訳システムは、頭字語を扱う際に誤用されることがある。
SL-TL (FR-EN) 翻訳ワークフローに追加のステップを提案し、まず、公共消費のための新しい頭字語コーパスを提供し、次に検索ベースのしきい値付けアルゴリズムを実験する。
論文 参考訳(メタデータ) (2024-09-26T15:18:34Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - Leveraging Domain Agnostic and Specific Knowledge for Acronym
Disambiguation [5.766754189548904]
アクロニムの曖昧さは、テキストの中で曖昧なアクロニムの正しい意味を見つけることを目的としている。
本稿では,hdBERTを用いた階層型デュアルパスBERT法を提案する。
62,441文を含むSciADデータセットを用いて,hdBERTの有効性を検討した。
論文 参考訳(メタデータ) (2021-07-01T09:10:00Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - MadDog: A Web-based System for Acronym Identification and Disambiguation [44.33455510438843]
略語と略語は、長いフレーズの短い形式であり、さまざまなタイプの執筆に広く使用されています。
その有用性にもかかわらず、特に頭字語がテキストに定義されていない場合は、テキストを理解するための課題も提供します。
様々なドメインの頭字語を処理できる初のウェブベースの頭字語識別および曖昧化システムを提供します。
論文 参考訳(メタデータ) (2021-01-25T04:49:25Z) - Primer AI's Systems for Acronym Identification and Disambiguation [0.0]
頭字語識別と曖昧化のための新しい手法を提案する。
提案手法に比べて性能が大幅に向上した。
両システムは、SDU@AAAI-21共有タスクリーダーボード上で競合的に動作します。
論文 参考訳(メタデータ) (2020-12-14T23:59:05Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。