論文の概要: Team SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual
approaches for news genre, topic and persuasion technique classification
- arxiv url: http://arxiv.org/abs/2303.09421v1
- Date: Thu, 16 Mar 2023 15:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:54:51.365673
- Title: Team SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual
approaches for news genre, topic and persuasion technique classification
- Title(参考訳): Team SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approach for news genre, topic and persuasion technique classification
- Authors: Ben Wu, Olesya Razuvayevskaya, Freddy Heppell, Jo\~ao A. Leite,
Carolina Scarton, Kalina Bontcheva and Xingyi Song
- Abstract要約: 本稿では,SemEval-2023 Task 3: Finding the category, the framing, and the Persuasion Technique in online news in a multi-lingual setup。
- 参考スコア(独自算出の注目度): 3.503844033591702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our approach for SemEval-2023 Task 3: Detecting the
category, the framing, and the persuasion techniques in online news in a
multi-lingual setup. For Subtask 1 (News Genre), we propose an ensemble of
fully trained and adapter mBERT models which was ranked joint-first for German,
and had the highest mean rank of multi-language teams. For Subtask 2 (Framing),
we achieved first place in 3 languages, and the best average rank across all
the languages, by using two separate ensembles: a monolingual
RoBERTa-MUPPETLARGE and an ensemble of XLM-RoBERTaLARGE with adapters and task
adaptive pretraining. For Subtask 3 (Persuasion Techniques), we train a
monolingual RoBERTa-Base model for English and a multilingual mBERT model for
the remaining languages, which achieved top 10 for all languages, including 2nd
for English. For each subtask, we compare monolingual and multilingual
approaches, and consider class imbalance techniques.
- Abstract(参考訳): 本稿では,semeval-2023タスク3について,オンラインニュースにおけるカテゴリー,フレーミング,説得手法を多言語環境で検出する手法について述べる。
本稿では,Subtask 1 (News Genre) について,ドイツ語で1位となり,多言語チームの中では最高位であった完全訓練およびアダプタ mBERT モデルのアンサンブルを提案する。
Subtask 2(Framing)では,単言語RoBERTa-MUPPETLARGEとXLM-RoBERTaLARGEのアンサンブルと,アダプタとタスク適応型事前学習という2つの異なるアンサンブルを用いて,各言語の平均ランクを3言語で1位とした。
Subtask 3(Persuasion Techniques)では、英語用単言語RoBERTa-Baseモデルと、残りの言語用多言語mBERTモデルを訓練し、英語用2番目を含むすべての言語で10位に達した。
各サブタスクについて,単言語および多言語アプローチを比較し,クラス不均衡手法を検討する。
関連論文リスト
- OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual
Idiomaticity Detection [4.111899441919165]
文が慣用的表現を含むか否かを判定する多言語逆行訓練モデルを提案する。
我々のモデルは、異なる多言語変換言語モデルからの事前学習された文脈表現に依存している。
論文 参考訳(メタデータ) (2022-06-07T05:52:43Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Multilingual Pre-training with Language and Task Adaptation for
Multilingual Text Style Transfer [14.799109368073548]
事前学習したSeq2seqモデルmBARTを多言語テキストスタイルの転送に活用する。
機械翻訳データとゴールドアライメントの英語文を使えば、最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-03-16T11:27:48Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Galileo at SemEval-2020 Task 12: Multi-lingual Learning for Offensive
Language Identification using Pre-trained Language Models [11.868582973877626]
本稿では,ソーシャルメディアにおける攻撃的言語の検出と分類に関するSemEval-2020 Task 12におけるガリレオの業績について述べる。
攻撃的言語同定のために,事前学習型言語モデル,ERNIE,XLM-Rを用いた多言語手法を提案する。
攻撃的言語分類法として,複数の教師付きモデルによって生成されたソフトラベルに基づく知識蒸留法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:40:19Z) - Cross-lingual Extended Named Entity Classification of Wikipedia Articles [0.0]
本稿では,問題の解法について述べるとともに,公式な結果について考察する。
本稿では,多言語モデル事前学習,単言語モデル微調整,多言語間投票を含む3段階のアプローチを提案する。
我々のシステムは30言語中25言語で最高のスコアを達成でき、他の5言語で最高のパフォーマンスシステムに対する精度のギャップは比較的小さい。
論文 参考訳(メタデータ) (2020-10-07T14:06:09Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。