論文の概要: Domain Adaptive Pretraining for Multilingual Acronym Extraction
- arxiv url: http://arxiv.org/abs/2206.15221v1
- Date: Thu, 30 Jun 2022 12:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 23:33:05.917994
- Title: Domain Adaptive Pretraining for Multilingual Acronym Extraction
- Title(参考訳): 多言語頭字語抽出のためのドメイン適応事前学習
- Authors: Usama Yaseen and Stefan Langer
- Abstract要約: 本稿では,複数言語の頭字語抽出作業SDU@AAAI-22に参加することで得られた知見について述べる。
このタスクは、科学的および法的領域内の6つの言語の文書から頭字語抽出によって構成される。
我々のシステム(チーム: SMR-NLP)は、すべての言語で頭字語抽出の競争性能を達成した。
- 参考スコア(独自算出の注目度): 7.318106000226068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our findings from participating in the multilingual
acronym extraction shared task SDU@AAAI-22. The task consists of acronym
extraction from documents in 6 languages within scientific and legal domains.
To address multilingual acronym extraction we employed BiLSTM-CRF with
multilingual XLM-RoBERTa embeddings. We pretrained the XLM-RoBERTa model on the
shared task corpus to further adapt XLM-RoBERTa embeddings to the shared task
domain(s). Our system (team: SMR-NLP) achieved competitive performance for
acronym extraction across all the languages.
- Abstract(参考訳): 本稿では,複数言語の頭字語抽出作業SDU@AAAI-22に参加することで得られた知見について述べる。
このタスクは、科学的および法的領域内の6つの言語の文書から頭字語を抽出する。
マルチリンガルXLM-RoBERTa埋め込みを用いたBiLSTM-CRFを用いた。
我々は、XLM-RoBERTa埋め込みを共有タスクドメインに適応させるために、共有タスクコーパス上でXLM-RoBERTaモデルを事前訓練した。
我々のシステム(チーム: SMR-NLP)は、すべての言語で頭字語抽出の競争性能を達成した。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - ESCOXLM-R: Multilingual Taxonomy-driven Pre-training for the Job Market
Domain [26.045871822474723]
XLM-RをベースとしたESCOXLM-Rという言語モデルを導入し,欧州技能・能力・資格・職業分類のドメイン適応型事前学習を行った。
本研究では,ESCOXLM-Rを6つのシークエンスラベリングと4つの言語における3つの分類タスクで評価し,9つのデータセットのうち6つで最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2023-05-20T04:50:20Z) - LLM-RM at SemEval-2023 Task 2: Multilingual Complex NER using
XLM-RoBERTa [13.062351454646912]
本稿では、複雑な名前付きエンティティの多言語設定におけるNERタスクの解決に焦点をあてる。
提案手法は,XLM-Roberta ベースモデルによる言語間表現を,12言語すべてのデータセット上で活用することで,この問題に対処する。
論文 参考訳(メタデータ) (2023-05-05T06:05:45Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models [100.29953199404905]
語彙重複の少ない言語間でのトークン共有を非強調化することにより,多言語語彙に拡張する新たなアプローチを提案する。
我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-V は低リソースの言語タスクに特に有効であり、マサハナーとアメリカの NLI では XLM-R を 11.2% と 5.8% で上回っている。
論文 参考訳(メタデータ) (2023-01-25T09:15:17Z) - Multilingual ColBERT-X [11.768656900939048]
ColBERT-Xはクロスランゲージ情報検索(CLIR)のための高密度検索モデルである
CLIRでは、ドキュメントは1つの自然言語で書かれ、クエリは別の自然言語で表現される。
関連するタスクは多言語IR(MLIR)であり、システムは複数の言語で書かれた文書の単一のランクリストを作成する。
論文 参考訳(メタデータ) (2022-09-03T06:02:52Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - An Ensemble Approach to Acronym Extraction using Transformers [7.88595796865485]
頭字語は、文中の句の初期成分を用いて構築された句の省略単位である。
本稿では,アクロニム抽出の課題に対するアンサンブルアプローチについて論じる。
論文 参考訳(メタデータ) (2022-01-09T14:49:46Z) - Bootstrapping Multilingual AMR with Contextual Word Alignments [15.588190959488538]
本研究では,En-glishと外国語トークン間の文脈的単語アライメントを用いた,テキストから英語へのAMRアライメントのための新しい手法を開発した。
このワードアライメントは弱教師付きであり、コンテキスト化されたXLM-Rワードの埋め込みに依存している。
私たちは、ドイツ語、イタリア語、スペイン語、中国語のベストパブリッシュ結果を上回る、非常に競争力のあるパフォーマンスを達成しています。
論文 参考訳(メタデータ) (2021-02-03T18:35:55Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。