論文の概要: tmn at SemEval-2023 Task 9: Multilingual Tweet Intimacy Detection using
XLM-T, Google Translate, and Ensemble Learning
- arxiv url: http://arxiv.org/abs/2304.04054v1
- Date: Sat, 8 Apr 2023 15:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 17:55:39.748909
- Title: tmn at SemEval-2023 Task 9: Multilingual Tweet Intimacy Detection using
XLM-T, Google Translate, and Ensemble Learning
- Title(参考訳): tmn at semeval-2023 task 9: xlm-t, google translate, and ensemble learningを用いた多言語ツイートの親密性検出
- Authors: Anna Glazkova
- Abstract要約: 本稿では,SemEval-2023 Task 9: Multilingual Tweet Intimacy Analysisのために設計されたトランスフォーマーベースのシステムについて述べる。
このタスクの目的は、ツイートの親密さを1(全く親密ではない)から5(非常に親密)まで予測することであった。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper describes a transformer-based system designed for SemEval-2023 Task
9: Multilingual Tweet Intimacy Analysis. The purpose of the task was to predict
the intimacy of tweets in a range from 1 (not intimate at all) to 5 (very
intimate). The official training set for the competition consisted of tweets in
six languages (English, Spanish, Italian, Portuguese, French, and Chinese). The
test set included the given six languages as well as external data with four
languages not presented in the training set (Hindi, Arabic, Dutch, and Korean).
We presented a solution based on an ensemble of XLM-T, a multilingual RoBERTa
model adapted to the Twitter domain. To improve the performance of unseen
languages, each tweet was supplemented by its English translation. We explored
the effectiveness of translated data for the languages seen in fine-tuning
compared to unseen languages and estimated strategies for using translated data
in transformer-based models. Our solution ranked 4th on the leaderboard while
achieving an overall Pearson's r of 0.599 over the test set. The proposed
system improves up to 0.088 Pearson's r over a score averaged across all 45
submissions.
- Abstract(参考訳): 本稿では,semeval-2023タスク9用に設計されたトランスフォーマーシステムについて述べる。
このタスクの目的は、ツイートの親密さを1(全く親密ではない)から5(非常に親密)まで予測することであった。
大会の公式トレーニングは6つの言語(英語、スペイン語、イタリア語、ポルトガル語、フランス語、中国語)で行われた。
テストセットには、与えられた6つの言語と、トレーニングセットに提示されない4つの言語(ヒンディー語、アラビア語、オランダ語、韓国語)の外部データが含まれていた。
我々はTwitterドメインに適応した多言語RoBERTaモデルであるXLM-Tのアンサンブルに基づくソリューションを提示した。
未発見の言語のパフォーマンスを向上させるため、各ツイートは英語の翻訳によって補われた。
我々は,未熟な言語と比較して,微調整で見られる言語に対する翻訳データの有効性と,トランスフォーマチックモデルにおける翻訳データ使用のための推定戦略について検討した。
私たちのソリューションは、テストセットでPearsonのrが0.599であるのに対して、リーダーボードで4位でした。
提案システムでは,45項目の平均スコアに対して,最大0.088Pearson's rを改良する。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - OPI at SemEval 2023 Task 9: A Simple But Effective Approach to
Multilingual Tweet Intimacy Analysis [0.0]
本稿では,SemEval 2023多言語ツイート親和性分析共有タスクについて述べる。
このタスクの目的は、Twitter投稿の親密さレベルを10言語で評価することであった。
提案手法は10言語中5言語にランクインし,全言語で最高得点を得た。
論文 参考訳(メタデータ) (2023-04-14T13:49:28Z) - HULAT at SemEval-2023 Task 9: Data augmentation for pre-trained
transformers applied to Multilingual Tweet Intimacy Analysis [1.4213973379473652]
本稿では,SemEval-2023 Task 9, Intimacy Analysis of Multilingual Tweetsについて述べる。
トレーニングデータセットと、異なるデータ拡張技術によって生成された合成データにより、最も人気のあるトランスフォーマーモデルを微調整する。
その結果,ポルトガル語,英語,オランダ語などの言語で有望な結果が得られた。
論文 参考訳(メタデータ) (2023-02-24T18:10:37Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Improved Multilingual Language Model Pretraining for Social Media Text
via Translation Pair Prediction [1.14219428942199]
ソーシャルメディアコーパス上でmBERTのゼロショット多言語移動を改善するための簡単なアプローチを評価する。
提案手法は,ソースターゲット言語間の翻訳へのアクセスを前提としている。
英語からヒンディー語,アラビア語,日本語へのゼロショット移行において,mBERT単独でのTPP事前訓練の改善を示す。
論文 参考訳(メタデータ) (2021-10-20T00:06:26Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection
on Social Media by Fine-tuning a Variety of BERT-based Models [0.0]
本稿では,Twitter上の攻撃的言語を5言語で識別するTransformerベースのソリューションについて述べる。
これは、Offenseval 2020のSubtask Aの共有タスクで使用された。
論文 参考訳(メタデータ) (2020-10-26T14:28:29Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Cross-lingual Inductive Transfer to Detect Offensive Language [3.655021726150369]
XLM-RoBERTa (XLM-R) を用いたツイート中の攻撃的言語を特定するための言語間帰納的手法を提案する。
私たちのモデルは5つの言語すべてで競争力を発揮します。
論文 参考訳(メタデータ) (2020-07-07T20:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。