論文の概要: LT@Helsinki at SemEval-2020 Task 12: Multilingual or language-specific
BERT?
- arxiv url: http://arxiv.org/abs/2008.00805v1
- Date: Mon, 3 Aug 2020 12:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:24:14.092220
- Title: LT@Helsinki at SemEval-2020 Task 12: Multilingual or language-specific
BERT?
- Title(参考訳): LT@Helsinki at SemEval-2020 Task 12: Multilingual or language-specific BERT?
- Authors: Marc P\`amies, Emily \"Ohman, Kaisla Kajava, J\"org Tiedemann
- Abstract要約: 本稿では,SemEval 2020 Shared Task 12のLT@Heldirectionalチームが提出したモデルについて述べる。
研究チームは,攻撃的言語識別と攻撃的ターゲット識別という題名のサブタスクAとCに参加した。
どちらのケースでも、Googleが事前トレーニングし、OLIDデータセットとSOLIDデータセットを微調整した、いわゆるBERT(Bisinki Representation from Transformer)を使用しました。
- 参考スコア(独自算出の注目度): 0.42056926734482064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the different models submitted by the LT@Helsinki team
for the SemEval 2020 Shared Task 12. Our team participated in sub-tasks A and
C; titled offensive language identification and offense target identification,
respectively. In both cases we used the so-called Bidirectional Encoder
Representation from Transformer (BERT), a model pre-trained by Google and
fine-tuned by us on the OLID and SOLID datasets. The results show that
offensive tweet classification is one of several language-based tasks where
BERT can achieve state-of-the-art results.
- Abstract(参考訳): 本稿では,SemEval 2020 Shared Task 12でLT@Helsinkiチームが提出したさまざまなモデルについて述べる。
研究チームは,攻撃的言語識別と攻撃的ターゲット識別という題名のサブタスクAとCに参加した。
どちらのケースでも、Googleが事前トレーニングし、OLIDデータセットとSOLIDデータセットを微調整した、いわゆるBERT(Bidirectional Encoder Representation from Transformer)を使用しました。
その結果、攻撃的なツイート分類は、BERTが最先端の結果を達成できる言語ベースのタスクの1つであることがわかった。
関連論文リスト
- Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual
Word-in-Context Disambiguation using Augmented Data, Signals, and
Transformers [1.869621561196521]
我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。
目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。
多言語とクロスリンガルの両方の設定のためのシステムを提出します。
論文 参考訳(メタデータ) (2021-04-04T08:49:28Z) - Bertinho: Galician BERT Representations [14.341471404165349]
本稿ではガリシア語に対する単言語BERTモデルを提案する。
我々は、それぞれ6層と12層からなる2つのモデルをリリースする。
我々のモデル、特に12層モデルでは、ほとんどのタスクにおいてmBERTの結果よりも優れています。
論文 参考訳(メタデータ) (2021-03-25T12:51:34Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Galileo at SemEval-2020 Task 12: Multi-lingual Learning for Offensive
Language Identification using Pre-trained Language Models [11.868582973877626]
本稿では,ソーシャルメディアにおける攻撃的言語の検出と分類に関するSemEval-2020 Task 12におけるガリレオの業績について述べる。
攻撃的言語同定のために,事前学習型言語モデル,ERNIE,XLM-Rを用いた多言語手法を提案する。
攻撃的言語分類法として,複数の教師付きモデルによって生成されたソフトラベルに基づく知識蒸留法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:40:19Z) - ANDES at SemEval-2020 Task 12: A jointly-trained BERT multilingual model
for offensive language detection [0.6445605125467572]
我々は,提案言語にまたがる課題に対処するために,多言語BERTを微調整した単一モデルを共同で訓練した。
私たちの単一モデルは、最高のパフォーマンスシステムに近いパフォーマンスで、競争力のある結果を得ました。
論文 参考訳(メタデータ) (2020-08-13T16:07:00Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - LIIR at SemEval-2020 Task 12: A Cross-Lingual Augmentation Approach for
Multilingual Offensive Language Identification [19.23116755449024]
我々は、英語と非英語でそれぞれGoogle AIが利用可能なBERTとMultilingual Bertモデルを適応し、微調整する。
英語では2つの細調整されたBERTモデルの組み合わせを使用します。
他の言語に対して、トレーニングデータを豊かにするための言語間拡張手法を提案し、多言語BERTを用いて文表現を得る。
論文 参考訳(メタデータ) (2020-05-07T18:45:48Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。