論文の概要: ADBCMM : Acronym Disambiguation by Building Counterfactuals and
Multilingual Mixing
- arxiv url: http://arxiv.org/abs/2112.08991v1
- Date: Wed, 8 Dec 2021 15:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-19 12:27:18.998395
- Title: ADBCMM : Acronym Disambiguation by Building Counterfactuals and
Multilingual Mixing
- Title(参考訳): ADBCMM : 対数と多言語混合による単語の曖昧化
- Authors: Yixuan Weng, Fei Xia, Bin Li, Xiusheng Huang, Shizhu He, Kang Liu, Jun
Zhao
- Abstract要約: 本稿では,ADBCMMと命名された頭字語曖昧化のための新しい手法を提案する。
反事実と多言語混合を構築することで、低リソース言語の性能を大幅に向上させることができる。
SDU@AAAI-22 - Shared Task 2: Acronym Disambiguationでは、提案手法がフランス語とスペイン語で1位を獲得した。
- 参考スコア(独自算出の注目度): 25.073319354895055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific documents often contain a large number of acronyms. Disambiguation
of these acronyms will help researchers better understand the meaning of
vocabulary in the documents. In the past, thanks to large amounts of data from
English literature, acronym task was mainly applied in English literature.
However, for other low-resource languages, this task is difficult to obtain
good performance and receives less attention due to the lack of large amount of
annotation data. To address the above issue, this paper proposes an new method
for acronym disambiguation, named as ADBCMM, which can significantly improve
the performance of low-resource languages by building counterfactuals and
multilingual mixing. Specifically, by balancing data bias in low-resource
langauge, ADBCMM will able to improve the test performance outside the data
set. In SDU@AAAI-22 - Shared Task 2: Acronym Disambiguation, the proposed
method won first place in French and Spanish. You can repeat our results here
https://github.com/WENGSYX/ADBCMM.
- Abstract(参考訳): 科学文書には、しばしば多数の頭字語が含まれている。
これらの頭字語を曖昧にすることは、研究者が文書中の語彙の意味を理解するのに役立つだろう。
かつては、英文学の膨大なデータのおかげで、頭字語の仕事は主に英文学に適用されていた。
しかし、他の低リソース言語では、このタスクは優れた性能を得るのが困難であり、大量のアノテーションデータがないため注意を払わない。
そこで本稿では,adbcmmと名づけた頭字語不曖昧化手法を提案し,偽語と多言語混合により低リソース言語の性能を著しく向上させる手法を提案する。
具体的には、低リソースのランガウジでデータバイアスをバランスさせることで、ADBCMMはデータセット外のテストパフォーマンスを改善することができる。
SDU@AAAI-22 - Shared Task 2: Acronym Disambiguationでは、提案手法がフランス語とスペイン語で1位を獲得した。
結果をここで繰り返します。https://github.com/WENGSYX/ADBCMM。
関連論文リスト
- Large Language Model Inference with Lexical Shortlisting [80.46235795566183]
大規模言語モデル(LLM)の推論は計算とメモリ集約であり、語彙的ショートリストに適応する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という,LLM推論時にサブ語彙をショートリスト化する2つのタスクについて検討する。
語彙的ショートリストは,一部のモデルのメモリ使用量を50%近く削減し,生成速度が25%向上することを示す。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - CABACE: Injecting Character Sequence Information and Domain Knowledge
for Enhanced Acronym and Long-Form Extraction [0.0]
本稿では,ACronym extract のための CABACE: Character-Aware BERT を提案する。
テキスト中の文字列を考慮に入れ、マスキング言語モデリングによって科学的および法的領域に適応する。
提案手法は,ノンイングリッシュ言語へのゼロショット一般化のためのベースラインモデルよりも適していることを示す。
論文 参考訳(メタデータ) (2021-12-25T14:03:09Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - BERT-based Acronym Disambiguation with Multiple Training Strategies [8.82012912690778]
Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。
BERTと動的負のサンプル選択を含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。
SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationのスコアが1位となった。
論文 参考訳(メタデータ) (2021-02-25T05:40:21Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。