論文の概要: SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches
for news genre, topic and persuasion technique classification
- arxiv url: http://arxiv.org/abs/2303.09421v2
- Date: Tue, 9 May 2023 09:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 15:48:39.676349
- Title: SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches
for news genre, topic and persuasion technique classification
- Title(参考訳): SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approach for News genre, topic and persuasion technique classification (英語)
- Authors: Ben Wu, Olesya Razuvayevskaya, Freddy Heppell, Jo\~ao A. Leite,
Carolina Scarton, Kalina Bontcheva and Xingyi Song
- Abstract要約: 本稿では,SemEval-2023 Task 3: Finding the category, the framing, and the Persuasion Technique in online news in a multi-lingual setup。
- 参考スコア(独自算出の注目度): 3.503844033591702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our approach for SemEval-2023 Task 3: Detecting the
category, the framing, and the persuasion techniques in online news in a
multi-lingual setup. For Subtask 1 (News Genre), we propose an ensemble of
fully trained and adapter mBERT models which was ranked joint-first for German,
and had the highest mean rank of multi-language teams. For Subtask 2 (Framing),
we achieved first place in 3 languages, and the best average rank across all
the languages, by using two separate ensembles: a monolingual
RoBERTa-MUPPETLARGE and an ensemble of XLM-RoBERTaLARGE with adapters and task
adaptive pretraining. For Subtask 3 (Persuasion Techniques), we train a
monolingual RoBERTa-Base model for English and a multilingual mBERT model for
the remaining languages, which achieved top 10 for all languages, including 2nd
for English. For each subtask, we compared monolingual and multilingual
approaches, and considered class imbalance techniques.
- Abstract(参考訳): 本稿では,semeval-2023タスク3について,オンラインニュースにおけるカテゴリー,フレーミング,説得手法を多言語環境で検出する手法について述べる。
本稿では,Subtask 1 (News Genre) について,ドイツ語で1位となり,多言語チームの中では最高位であった完全訓練およびアダプタ mBERT モデルのアンサンブルを提案する。
Subtask 2(Framing)では,単言語RoBERTa-MUPPETLARGEとXLM-RoBERTaLARGEのアンサンブルと,アダプタとタスク適応型事前学習という2つの異なるアンサンブルを用いて,各言語の平均ランクを3言語で1位とした。
Subtask 3(Persuasion Techniques)では、英語用単言語RoBERTa-Baseモデルと、残りの言語用多言語mBERTモデルを訓練し、英語用2番目を含むすべての言語で10位に達した。
各サブタスクについて,単言語および多言語アプローチを比較し,クラス不均衡法を検討した。
関連論文リスト
- Fine-tuning Large Language Models for Multigenerator, Multidomain, and
Multilingual Machine-Generated Text Detection [3.6433784431752434]
SemEval-2024 Task 8は、多種多様な大言語モデル(LLM)から機械生成テキストを特定するという課題を導入する
タスクは3つのサブタスクから構成される: 単言語および多言語におけるバイナリ分類(Subtask A)、多クラス分類(Subtask B)、混合テキスト検出(Subtask C)。
論文 参考訳(メタデータ) (2024-01-22T19:39:05Z) - Team QUST at SemEval-2023 Task 3: A Comprehensive Study of Monolingual
and Multilingual Approaches for Detecting Online News Genre, Framing and
Persuasion Techniques [0.030458514384586396]
本稿では,SemEval2023タスク3におけるチームQUSTの参加について述べる。
モノリンガルモデルは、まず多数クラスのアンダーサンプリングを用いて評価される。
事前学習された多言語モデルは、クラス重みとサンプル重みの組み合わせで微調整される。
論文 参考訳(メタデータ) (2023-04-09T08:14:01Z) - Hitachi at SemEval-2023 Task 3: Exploring Cross-lingual Multi-task
Strategies for Genre and Framing Detection in Online News [10.435874177179764]
本稿では,日立チームによるSemEval-2023タスク3への参加について解説する。
本研究では,事前学習した言語モデルの学習のための多言語・多タスク戦略について検討した。
結果からアンサンブルモデルを構築し,イタリアおよびロシアのジャンル分類サブタスクにおいて,マクロ平均F1スコアを達成した。
論文 参考訳(メタデータ) (2023-03-03T09:12:55Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Cross-lingual Extended Named Entity Classification of Wikipedia Articles [0.0]
本稿では,問題の解法について述べるとともに,公式な結果について考察する。
本稿では,多言語モデル事前学習,単言語モデル微調整,多言語間投票を含む3段階のアプローチを提案する。
我々のシステムは30言語中25言語で最高のスコアを達成でき、他の5言語で最高のパフォーマンスシステムに対する精度のギャップは比較的小さい。
論文 参考訳(メタデータ) (2020-10-07T14:06:09Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。