Fugu-MT 論文翻訳(概要): ADBCMM : Acronym Disambiguation by Building Counterfactuals and Multilingual Mixing

論文の概要: ADBCMM : Acronym Disambiguation by Building Counterfactuals and Multilingual Mixing

arxiv url: http://arxiv.org/abs/2112.08991v1
Date: Wed, 8 Dec 2021 15:08:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-19 12:27:18.998395
Title: ADBCMM : Acronym Disambiguation by Building Counterfactuals and Multilingual Mixing
Title（参考訳）: ADBCMM : 対数と多言語混合による単語の曖昧化
Authors: Yixuan Weng, Fei Xia, Bin Li, Xiusheng Huang, Shizhu He, Kang Liu, Jun Zhao
Abstract要約: 本稿では,ADBCMMと命名された頭字語曖昧化のための新しい手法を提案する。反事実と多言語混合を構築することで、低リソース言語の性能を大幅に向上させることができる。 SDU@AAAI-22 - Shared Task 2: Acronym Disambiguationでは、提案手法がフランス語とスペイン語で1位を獲得した。
参考スコア（独自算出の注目度）: 25.073319354895055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scientific documents often contain a large number of acronyms. Disambiguation of these acronyms will help researchers better understand the meaning of vocabulary in the documents. In the past, thanks to large amounts of data from English literature, acronym task was mainly applied in English literature. However, for other low-resource languages, this task is difficult to obtain good performance and receives less attention due to the lack of large amount of annotation data. To address the above issue, this paper proposes an new method for acronym disambiguation, named as ADBCMM, which can significantly improve the performance of low-resource languages by building counterfactuals and multilingual mixing. Specifically, by balancing data bias in low-resource langauge, ADBCMM will able to improve the test performance outside the data set. In SDU@AAAI-22 - Shared Task 2: Acronym Disambiguation, the proposed method won first place in French and Spanish. You can repeat our results here https://github.com/WENGSYX/ADBCMM.
Abstract（参考訳）: 科学文書には、しばしば多数の頭字語が含まれている。これらの頭字語を曖昧にすることは、研究者が文書中の語彙の意味を理解するのに役立つだろう。かつては、英文学の膨大なデータのおかげで、頭字語の仕事は主に英文学に適用されていた。しかし、他の低リソース言語では、このタスクは優れた性能を得るのが困難であり、大量のアノテーションデータがないため注意を払わない。そこで本稿では,adbcmmと名づけた頭字語不曖昧化手法を提案し,偽語と多言語混合により低リソース言語の性能を著しく向上させる手法を提案する。具体的には、低リソースのランガウジでデータバイアスをバランスさせることで、ADBCMMはデータセット外のテストパフォーマンスを改善することができる。 SDU@AAAI-22 - Shared Task 2: Acronym Disambiguationでは、提案手法がフランス語とスペイン語で1位を獲得した。結果をここで繰り返します。https://github.com/WENGSYX/ADBCMM。

関連論文リスト

Solving Word-Sense Disambiguation and Word-Sense Induction with Dictionary Examples [0.0]
多くの低リソース言語は、大きなタスク固有のデータセットの欠如に苦慮している。辞書は、大きな情報内容にもかかわらず、リソースの少ない言語で滅多に使われない。我々は、LLMが、リソースの少ない言語で既存の言語リソースを拡張するのにどのように使えるかを示す。
論文参考訳（メタデータ） (2025-03-06T11:27:55Z)
Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文参考訳（メタデータ） (2024-11-02T05:10:50Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
On Translating Technical Terminology: A Translation Workflow for Machine-Translated Acronyms [3.053989095162017]
技術的な用語、特に頭字語を翻訳する、重要なステップが見逃されていることが分かりました。 Google Translateのような最先端の機械翻訳システムは、頭字語を扱う際に誤用されることがある。 SL-TL (FR-EN) 翻訳ワークフローに追加のステップを提案し、まず、公共消費のための新しい頭字語コーパスを提供し、次に検索ベースのしきい値付けアルゴリズムを実験する。
論文参考訳（メタデータ） (2024-09-26T15:18:34Z)
MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文参考訳（メタデータ） (2024-06-11T16:26:18Z)
LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文参考訳（メタデータ） (2024-06-03T15:30:36Z)
Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。 query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文参考訳（メタデータ） (2023-03-14T07:27:30Z)
CABACE: Injecting Character Sequence Information and Domain Knowledge for Enhanced Acronym and Long-Form Extraction [0.0]
本稿では,ACronym extract のための CABACE: Character-Aware BERT を提案する。テキスト中の文字列を考慮に入れ、マスキング言語モデリングによって科学的および法的領域に適応する。提案手法は,ノンイングリッシュ言語へのゼロショット一般化のためのベースラインモデルよりも適していることを示す。
論文参考訳（メタデータ） (2021-12-25T14:03:09Z)
Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文参考訳（メタデータ） (2021-03-23T13:25:55Z)
BERT-based Acronym Disambiguation with Multiple Training Strategies [8.82012912690778]
Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。 BERTと動的負のサンプル選択を含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。 SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationのスコアが1位となった。
論文参考訳（メタデータ） (2021-02-25T05:40:21Z)
What Does This Acronym Mean? Introducing a New Dataset for Acronym Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文参考訳（メタデータ） (2020-10-28T00:12:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。