論文の概要: MTLB-STRUCT @PARSEME 2020: Capturing Unseen Multiword Expressions Using
Multi-task Learning and Pre-trained Masked Language Models
- arxiv url: http://arxiv.org/abs/2011.02541v1
- Date: Wed, 4 Nov 2020 21:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:16:10.614291
- Title: MTLB-STRUCT @PARSEME 2020: Capturing Unseen Multiword Expressions Using
Multi-task Learning and Pre-trained Masked Language Models
- Title(参考訳): MTLB-STRUCT @PARSEME 2020: マルチタスク学習と事前学習されたマスケッド言語モデルを用いた未知のマルチワード表現のキャプチャ
- Authors: Shiva Taslimipoor, Sara Bahaadini, Ekaterina Kochmar
- Abstract要約: 本稿では,言語マルチワード表現(VMWE)と係り受け解析木を共同で学習する半教師システムについて述べる。
BERT隠れレイヤは2つのタスク間で共有され、VMWEタグを取得するための追加の線形レイヤを導入します。
このシステムは、見えないVMWEと一般的なVMWEを識別する上で、F1スコアで最初にランク付けされ、14の言語で平均された。
- 参考スコア(独自算出の注目度): 7.749152028699038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes a semi-supervised system that jointly learns verbal
multiword expressions (VMWEs) and dependency parse trees as an auxiliary task.
The model benefits from pre-trained multilingual BERT. BERT hidden layers are
shared among the two tasks and we introduce an additional linear layer to
retrieve VMWE tags. The dependency parse tree prediction is modelled by a
linear layer and a bilinear one plus a tree CRF on top of BERT. The system has
participated in the open track of the PARSEME shared task 2020 and ranked first
in terms of F1-score in identifying unseen VMWEs as well as VMWEs in general,
averaged across all 14 languages.
- Abstract(参考訳): 本稿では,言語マルチワード表現(VMWE)と係り受け解析木を協調的に学習する半教師システムについて述べる。
このモデルは、事前訓練された多言語BERTの恩恵を受ける。
BERT隠れレイヤは2つのタスク間で共有され、VMWEタグを取得するための追加の線形レイヤを導入します。
依存性解析木予測は、BERT上の線形層と双線形層とツリーCRFとでモデル化される。
このシステムは、PPARSEME共有タスク2020のオープントラックに参加しており、F1スコアで、見えないVMWEと一般的には、14言語すべてで平均されたVMWEを識別する。
関連論文リスト
- How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Fine-tuning Large Language Models for Multigenerator, Multidomain, and
Multilingual Machine-Generated Text Detection [3.6433784431752434]
SemEval-2024 Task 8は、多種多様な大言語モデル(LLM)から機械生成テキストを特定するという課題を導入する
タスクは3つのサブタスクから構成される: 単言語および多言語におけるバイナリ分類(Subtask A)、多クラス分類(Subtask B)、混合テキスト検出(Subtask C)。
論文 参考訳(メタデータ) (2024-01-22T19:39:05Z) - Morphosyntactic probing of multilingual BERT models [41.83131308999425]
言語モデルにおける形態情報の多言語探索のための広範囲なデータセットを提案する。
トレーニング済みのTransformerモデル (mBERT と XLM-RoBERTa) では,これらのタスク間で高い性能を実現することができる。
論文 参考訳(メタデータ) (2023-06-09T19:15:20Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Multilingual Machine Translation Systems from Microsoft for WMT21 Shared
Task [95.06453182273027]
本報告では、大規模多言語機械翻訳におけるWMT21共有タスクのためのMicrosoftの機械翻訳システムについて述べる。
共有タスクへのモデル提出はDeltaLMnotefooturlhttps://aka.ms/deltalmで行われました。
最終提出は自動評価基準で3トラックにランクインした。
論文 参考訳(メタデータ) (2021-11-03T09:16:17Z) - TGIF: Tree-Graph Integrated-Format Parser for Enhanced UD with Two-Stage
Generic- to Individual-Language Finetuning [18.71574180551552]
IWPT 2021共有タスクへのコントリビューションについて述べる。
我々のメインシステムコンポーネントはハイブリッドツリーグラフであり、スプレッドツリーに存在しないグラフエッジを付加した拡張グラフに対して、スプレッドツリーの予測を統合する。
論文 参考訳(メタデータ) (2021-07-14T18:00:08Z) - LOME: Large Ontology Multilingual Extraction [41.03628217448552]
LOMEは多言語情報抽出を行うシステムである。
入力としてテキストドキュメントが与えられると、コアシステムはテキストエンティティとイベント参照をFrameNetで識別する。
これにより、システムはイベントとエンティティに焦点を当てた知識グラフを構築する。
論文 参考訳(メタデータ) (2021-01-28T18:28:59Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。