論文の概要: OPI at SemEval 2023 Task 9: A Simple But Effective Approach to
Multilingual Tweet Intimacy Analysis
- arxiv url: http://arxiv.org/abs/2304.07130v1
- Date: Fri, 14 Apr 2023 13:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 13:26:57.211376
- Title: OPI at SemEval 2023 Task 9: A Simple But Effective Approach to
Multilingual Tweet Intimacy Analysis
- Title(参考訳): OPI at SemEval 2023 Task 9: マルチリンガルツイート親和性分析へのシンプルだが効果的なアプローチ
- Authors: S{\l}awomir Dadas
- Abstract要約: 本稿では,SemEval 2023多言語ツイート親和性分析共有タスクについて述べる。
このタスクの目的は、Twitter投稿の親密さレベルを10言語で評価することであった。
提案手法は10言語中5言語にランクインし,全言語で最高得点を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our submission to the SemEval 2023 multilingual tweet
intimacy analysis shared task. The goal of the task was to assess the level of
intimacy of Twitter posts in ten languages. The proposed approach consists of
several steps. First, we perform in-domain pre-training to create a language
model adapted to Twitter data. In the next step, we train an ensemble of
regression models to expand the training set with pseudo-labeled examples. The
extended dataset is used to train the final solution. Our method was ranked
first in five out of ten language subtasks, obtaining the highest average score
across all languages.
- Abstract(参考訳): 本稿では,SemEval 2023多言語ツイート親和性分析共有タスクについて述べる。
このタスクの目的は、Twitter投稿の親密さレベルを10言語で評価することであった。
提案手法はいくつかのステップからなる。
まず,twitterデータに適応した言語モデルを作成するために,ドメイン内事前学習を行う。
次のステップでは、擬似ラベル付き例でトレーニングセットを拡張するために回帰モデルのアンサンブルを訓練する。
拡張データセットは最終ソリューションのトレーニングに使用される。
提案手法は,言語サブタスク10項目中5項目で第1位にランクインし,全言語で最高得点を得た。
関連論文リスト
- tmn at SemEval-2023 Task 9: Multilingual Tweet Intimacy Detection using
XLM-T, Google Translate, and Ensemble Learning [2.28438857884398]
本稿では,SemEval-2023 Task 9: Multilingual Tweet Intimacy Analysisのために設計されたトランスフォーマーベースのシステムについて述べる。
このタスクの目的は、ツイートの親密さを1(全く親密ではない)から5(非常に親密)まで予測することであった。
論文 参考訳(メタデータ) (2023-04-08T15:50:16Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k? Mixed Training with Gradient
Optimization in Few-Shot Cross-Lingual Transfer [2.7213511121305465]
本研究では,ソースデータとターゲットデータの両方を学習する1ステップ混合学習手法を提案する。
我々は1つのモデルを使って全てのターゲット言語を同時に処理し、過度に言語固有のモデルを避ける。
提案手法は,全タスクの最先端性能と目標適応性能を高いマージンで向上させる。
論文 参考訳(メタデータ) (2022-04-29T04:05:02Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - NLPDove at SemEval-2020 Task 12: Improving Offensive Language Detection
with Cross-lingual Transfer [10.007363787391952]
本稿では,攻撃的言語を多言語で識別する手法について述べる。
本研究では,異なるしきい値を持つ半教師付きラベルの追加と,データ選択による言語間移動という2つのデータ拡張戦略について検討する。
われわれの多言語システムはOffensEval 2020でギリシャ語、デンマーク語、トルコ語で競争の結果を得た。
論文 参考訳(メタデータ) (2020-08-04T06:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。