論文の概要: Team Hitachi at SemEval-2023 Task 3: Exploring Cross-lingual Multi-task
Strategies for Genre and Framing Detection in Online News
- arxiv url: http://arxiv.org/abs/2303.01794v1
- Date: Fri, 3 Mar 2023 09:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 15:44:29.146778
- Title: Team Hitachi at SemEval-2023 Task 3: Exploring Cross-lingual Multi-task
Strategies for Genre and Framing Detection in Online News
- Title(参考訳): チーム日立 - SemEval-2023 Task 3: Exploring cross-lingual multi-task Strategies for Genre and Framing Detection in Online News (英語)
- Authors: Yuta Koreeda, Ken-ichi Yokote, Hiroaki Ozaki, Atsuki Yamaguchi, Masaya
Tsunokake, Yasuhiro Sogawa
- Abstract要約: 本稿では,日立チームによるSemEval-2023タスク3への参加について解説する。
本研究は,タスクの多言語・マルチタスクの性質と,トレーニングデータに制限がある設定に基づいて,事前学習した言語モデルを低リソース環境下で訓練するための様々な戦略について検討した。
結果からアンサンブルモデルを構築し,イタリアおよびロシアのジャンル分類サブタスクにおいて,マクロ平均F1スコアを達成した。
- 参考スコア(独自算出の注目度): 10.435874177179764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explains the participation of team Hitachi to SemEval-2023 Task 3
"Detecting the genre, the framing, and the persuasion techniques in online news
in a multi-lingual setup." Based on the multilingual, multi-task nature of the
task and the setting that training data is limited, we investigated different
strategies for training the pretrained language models under low resource
settings. Through extensive experiments, we found that (a)
cross-lingual/multi-task training, and (b) collecting an external balanced
dataset, can benefit the genre and framing detection. We constructed ensemble
models from the results and achieved the highest macro-averaged F1 scores in
Italian and Russian genre categorization subtasks.
- Abstract(参考訳): 本稿では,日立チームのSemEval-2023タスク3への参加について,オンラインニュースにおけるジャンル,フレーミング,説得テクニックを多言語設定で検出する。
タスクのマルチリンガル・マルチタスク特性とトレーニングデータ制限の設定に基づいて,事前学習された言語モデルを低リソース環境下でトレーニングするための異なる戦略を検討した。
広範な実験を通して、私たちは
(a)クロスランガル/マルチタスク・トレーニング、及び
b)外部バランスの取れたデータセットを収集し、ジャンルやフレーミング検出に役立てることができる。
結果からアンサンブルモデルを構築し,イタリアおよびロシアのジャンル分類サブタスクにおけるマクロ平均F1スコアを達成した。
関連論文リスト
- Team QUST at SemEval-2023 Task 3: A Comprehensive Study of Monolingual
and Multilingual Approaches for Detecting Online News Genre, Framing and
Persuasion Techniques [0.030458514384586396]
本稿では,SemEval2023タスク3におけるチームQUSTの参加について述べる。
モノリンガルモデルは、まず多数クラスのアンダーサンプリングを用いて評価される。
事前学習された多言語モデルは、クラス重みとサンプル重みの組み合わせで微調整される。
論文 参考訳(メタデータ) (2023-04-09T08:14:01Z) - SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches
for news genre, topic and persuasion technique classification [3.503844033591702]
本稿では,SemEval-2023 Task 3: Finding the category, the framing, and the Persuasion Technique in online news in a multi-lingual setup。
論文 参考訳(メタデータ) (2023-03-16T15:54:23Z) - OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual
Idiomaticity Detection [4.111899441919165]
文が慣用的表現を含むか否かを判定する多言語逆行訓練モデルを提案する。
我々のモデルは、異なる多言語変換言語モデルからの事前学習された文脈表現に依存している。
論文 参考訳(メタデータ) (2022-06-07T05:52:43Z) - Polyglot Prompt: Multilingual Multitask PrompTraining [35.70124413465395]
異なる言語から異なるタスクを(タスク/言語固有のモジュールを使わずに)モノリシックなフレームワークでモデル化できるだろうか?
学習フレームワークであるPolyglot Promptを開発し、適切な多言語プロンプトエンジニアリングの後、異なる言語やタスクの統一的な意味空間を学習するためのプロンプト手法を導入する。
論文 参考訳(メタデータ) (2022-04-29T17:40:50Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。