論文の概要: ADBCMM : Acronym Disambiguation by Building Counterfactuals and
Multilingual Mixing
- arxiv url: http://arxiv.org/abs/2112.08991v1
- Date: Wed, 8 Dec 2021 15:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-19 12:27:18.998395
- Title: ADBCMM : Acronym Disambiguation by Building Counterfactuals and
Multilingual Mixing
- Title(参考訳): ADBCMM : 対数と多言語混合による単語の曖昧化
- Authors: Yixuan Weng, Fei Xia, Bin Li, Xiusheng Huang, Shizhu He, Kang Liu, Jun
Zhao
- Abstract要約: 本稿では,ADBCMMと命名された頭字語曖昧化のための新しい手法を提案する。
反事実と多言語混合を構築することで、低リソース言語の性能を大幅に向上させることができる。
SDU@AAAI-22 - Shared Task 2: Acronym Disambiguationでは、提案手法がフランス語とスペイン語で1位を獲得した。
- 参考スコア(独自算出の注目度): 25.073319354895055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific documents often contain a large number of acronyms. Disambiguation
of these acronyms will help researchers better understand the meaning of
vocabulary in the documents. In the past, thanks to large amounts of data from
English literature, acronym task was mainly applied in English literature.
However, for other low-resource languages, this task is difficult to obtain
good performance and receives less attention due to the lack of large amount of
annotation data. To address the above issue, this paper proposes an new method
for acronym disambiguation, named as ADBCMM, which can significantly improve
the performance of low-resource languages by building counterfactuals and
multilingual mixing. Specifically, by balancing data bias in low-resource
langauge, ADBCMM will able to improve the test performance outside the data
set. In SDU@AAAI-22 - Shared Task 2: Acronym Disambiguation, the proposed
method won first place in French and Spanish. You can repeat our results here
https://github.com/WENGSYX/ADBCMM.
- Abstract(参考訳): 科学文書には、しばしば多数の頭字語が含まれている。
これらの頭字語を曖昧にすることは、研究者が文書中の語彙の意味を理解するのに役立つだろう。
かつては、英文学の膨大なデータのおかげで、頭字語の仕事は主に英文学に適用されていた。
しかし、他の低リソース言語では、このタスクは優れた性能を得るのが困難であり、大量のアノテーションデータがないため注意を払わない。
そこで本稿では,adbcmmと名づけた頭字語不曖昧化手法を提案し,偽語と多言語混合により低リソース言語の性能を著しく向上させる手法を提案する。
具体的には、低リソースのランガウジでデータバイアスをバランスさせることで、ADBCMMはデータセット外のテストパフォーマンスを改善することができる。
SDU@AAAI-22 - Shared Task 2: Acronym Disambiguationでは、提案手法がフランス語とスペイン語で1位を獲得した。
結果をここで繰り返します。https://github.com/WENGSYX/ADBCMM。
関連論文リスト
- Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - On Translating Technical Terminology: A Translation Workflow for
Machine-Translated Acronyms [3.053989095162017]
技術的な用語、特に頭字語を翻訳する、重要なステップが見逃されていることが分かりました。
Google Translateのような最先端の機械翻訳システムは、頭字語を扱う際に誤用されることがある。
SL-TL (FR-EN) 翻訳ワークフローに追加のステップを提案し、まず、公共消費のための新しい頭字語コーパスを提供し、次に検索ベースのしきい値付けアルゴリズムを実験する。
論文 参考訳(メタデータ) (2024-09-26T15:18:34Z) - MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - CABACE: Injecting Character Sequence Information and Domain Knowledge
for Enhanced Acronym and Long-Form Extraction [0.0]
本稿では,ACronym extract のための CABACE: Character-Aware BERT を提案する。
テキスト中の文字列を考慮に入れ、マスキング言語モデリングによって科学的および法的領域に適応する。
提案手法は,ノンイングリッシュ言語へのゼロショット一般化のためのベースラインモデルよりも適していることを示す。
論文 参考訳(メタデータ) (2021-12-25T14:03:09Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - BERT-based Acronym Disambiguation with Multiple Training Strategies [8.82012912690778]
Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。
BERTと動的負のサンプル選択を含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。
SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationのスコアが1位となった。
論文 参考訳(メタデータ) (2021-02-25T05:40:21Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。