論文の概要: Ensembling Transformers for Cross-domain Automatic Term Extraction
- arxiv url: http://arxiv.org/abs/2212.05696v1
- Date: Mon, 12 Dec 2022 04:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:15:53.032706
- Title: Ensembling Transformers for Cross-domain Automatic Term Extraction
- Title(参考訳): クロスドメイン自動項抽出用センシングトランス
- Authors: Hanh Thi Hong Tran, Matej Martinc, Andraz Pelicon, Antoine Doucet, and
Senja Pollak
- Abstract要約: 本稿では,トランスフォーマーをベースとした事前学習型言語モデルの,多言語クロスドメイン設定における項抽出に対する予測能力の比較研究を提案する。
この実験は,4つの専門ドメイン(倒壊,風力エネルギー,気流,心不全)と3つの言語(英語,フランス語,オランダ語)をカバーするACTERコーパスを用いて行った。
その結果、モノリンガルモデルを採用する戦略は、関連する研究から最先端のアプローチよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 8.38711330675001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic term extraction plays an essential role in domain language
understanding and several natural language processing downstream tasks. In this
paper, we propose a comparative study on the predictive power of
Transformers-based pretrained language models toward term extraction in a
multi-language cross-domain setting. Besides evaluating the ability of
monolingual models to extract single- and multi-word terms, we also experiment
with ensembles of mono- and multilingual models by conducting the intersection
or union on the term output sets of different language models. Our experiments
have been conducted on the ACTER corpus covering four specialized domains
(Corruption, Wind energy, Equitation, and Heart failure) and three languages
(English, French, and Dutch), and on the RSDO5 Slovenian corpus covering four
additional domains (Biomechanics, Chemistry, Veterinary, and Linguistics). The
results show that the strategy of employing monolingual models outperforms the
state-of-the-art approaches from the related work leveraging multilingual
models, regarding all the languages except Dutch and French if the term
extraction task excludes the extraction of named entity terms. Furthermore, by
combining the outputs of the two best performing models, we achieve significant
improvements.
- Abstract(参考訳): 自動用語抽出は、ドメイン言語理解といくつかの自然言語処理下流タスクにおいて重要な役割を果たす。
本稿では,多言語クロスドメイン環境における用語抽出に向けたトランスフォーマーに基づく事前学習言語モデルの予測能力の比較検討を行う。
単言語モデルが単語と多語を抽出できる能力を評価するだけでなく、異なる言語モデルの項出力集合の交点または結合を行うことで、単言語モデルと多言語モデルのアンサンブルを実験する。
本研究は,4つの専門ドメイン(故障,風力エネルギー,浮力,心不全)と3つの言語(英語,フランス語,オランダ語)をカバーするACTERコーパスと,さらに4つの追加ドメイン(バイオメカニクス,化学,獣医学,言語学)をカバーするRSDO5スロベニアコーパスについて行った。
その結果、単言語モデルを採用する戦略は、単語抽出タスクが名前付きエンティティ項の抽出を除外した場合、オランダ語とフランス語を除くすべての言語について、多言語モデルを活用した関連作業から最先端のアプローチを上回っていることがわかった。
さらに,2つの最高性能モデルの出力を組み合わせることで,大幅な改善を実現している。
関連論文リスト
- Multilingual Entity and Relation Extraction from Unified to
Language-specific Training [29.778332361215636]
エンティティと関係抽出タスクの既存のアプローチは、主に英語のコーパスに焦点を当て、他の言語を無視している。
言語干渉を軽減するために,2段階の多言語学習手法と,Multilingual Entity and Relation extract framework (mERE) と呼ばれるジョイントモデルを提案する。
本手法はモノリンガル法と多言語ベースライン法の両方に優れる。
論文 参考訳(メタデータ) (2023-01-11T12:26:53Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - CLIN-X: pre-trained language models and a study on cross-task transfer
for concept extraction in the clinical domain [22.846469609263416]
事前学習したCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが他の事前学習したトランスフォーマーモデルよりも優れていることを示す。
本研究は,250のラベル付き文が利用可能である場合に,47F1ポイントまで改善された注釈付きデータがないにもかかわらず,安定したモデル性能を示す。
本研究は,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性を強調した。
論文 参考訳(メタデータ) (2021-12-16T10:07:39Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual
Semantics with Monolingual Corpora [21.78571365050787]
ERNIE-Mは、複数の言語の表現をモノリンガルコーパスと整合させる新しいトレーニング手法である。
単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にする。
実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:52:27Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。