論文の概要: Hopeful_Men@LT-EDI-EACL2021: Hope Speech Detection Using Indic
Transliteration and Transformers
- arxiv url: http://arxiv.org/abs/2102.12082v1
- Date: Wed, 24 Feb 2021 06:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 18:50:44.011711
- Title: Hopeful_Men@LT-EDI-EACL2021: Hope Speech Detection Using Indic
Transliteration and Transformers
- Title(参考訳): Hopeful_Men@LT-EDI-EACL2021: Indic TransliterationとTransformersを用いた希望の音声検出
- Authors: Ishan Sanjeev Upadhyay, Nikhil E, Anshul Wadhawan, Radhika Mamidi
- Abstract要約: 本稿では,HopeEDIデータセットにおける希望の発話検出に用いたアプローチについて述べる。
最初のアプローチでは、ロジスティック回帰、ランダムフォレスト、SVM、LSTMベースのモデルを用いて、文脈埋め込みを用いて分類器を訓練した。
第2のアプローチは、事前訓練済みトランスモデルの微調整によって得られた11モデルの過半数投票アンサンブルを使用することであった。
- 参考スコア(独自算出の注目度): 6.955778726800376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to describe the approach we used to detect hope speech in the
HopeEDI dataset. We experimented with two approaches. In the first approach, we
used contextual embeddings to train classifiers using logistic regression,
random forest, SVM, and LSTM based models.The second approach involved using a
majority voting ensemble of 11 models which were obtained by fine-tuning
pre-trained transformer models (BERT, ALBERT, RoBERTa, IndicBERT) after adding
an output layer. We found that the second approach was superior for English,
Tamil and Malayalam. Our solution got a weighted F1 score of 0.93, 0.75 and
0.49 for English,Malayalam and Tamil respectively. Our solution ranked first in
English, eighth in Malayalam and eleventh in Tamil.
- Abstract(参考訳): 本論文では,HopeEDIデータセットにおける希望の発話検出に用いたアプローチについて述べる。
私たちは2つのアプローチを実験した。
第1のアプローチでは,ロジスティック回帰,ランダムフォレスト,SVM,LSTMモデルを用いた分類器の学習にコンテキスト埋め込みを用い,第2のアプローチでは,出力層を追加して事前学習したトランスフォーマーモデル (BERT, ALBERT, RoBERTa, IndicBERT) を微調整して得られた11モデルの多数投票アンサンブルを用いた。
第2のアプローチは、英語、タミル語、マラヤラム語よりも優れていることが分かりました。
我々の解は、それぞれ英語、マラヤラム、タミルの重み付きF1スコア0.93、0.75、0.49を得た。
私たちのソリューションは英語で第1位、マラヤラムで第8位、タミルで第11位でした。
関連論文リスト
- CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - Towards Arabic Sentence Simplification via Classification and Generative
Approaches [0.0]
本稿では,現代標準アラビア語(MSA)文レベルの簡略化システムの構築を試みる。
文の簡易化には, (i) アラビア語-BERT, 事前学習した文脈モデル, 高速テキスト単語埋め込みのモデル, (ii) 多言語テキスト・テキスト・トランスフォーマーmT5を適用したSeq2Seq手法の2つの手法を用いた。
論文 参考訳(メタデータ) (2022-04-20T08:17:33Z) - PSG@HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for
Offensive Language Identification in Tanglish [0.0]
本稿では,Dravidian-Codemix-HASOC2021: Hate Speech and Offensive Language Identification in Dravidian Languageについて述べる。
本課題は,ソーシャルメディアから収集したDravidian言語における,コードミキシングされたコメント・ポスト中の攻撃的コンテンツを特定することを目的とする。
論文 参考訳(メタデータ) (2021-10-06T15:23:40Z) - Cross-Lingual Text Classification of Transliterated Hindi and Malayalam [31.86825573676501]
この問題に対処するために、データ拡張アプローチと教師-学生のトレーニングスキームを組み合わせる。
我々は,ヒンディー語とマラヤラム語を翻訳し,実世界のシナリオをベンチマークするための新しいデータセットを導入した。
その結果,MBERTでは5.6%,XLM-Rでは4.7%,F1では5.7%であった。
論文 参考訳(メタデータ) (2021-08-31T05:13:17Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - LaDiff ULMFiT: A Layer Differentiated training approach for ULMFiT [0.0]
事前に訓練したUMMFiT arXiv:1801.06146モデルを訓練するためのレイヤ別トレーニング手順を提案する。
特別なトークンを使用してツイートの特定の部分をアノテートし、言語理解を改善し、モデルに関する洞察を得ました。
提案手法は、サブタスク「COVID19 Fake News Detection in English」で164人中61位にランクインした。
論文 参考訳(メタデータ) (2021-01-13T09:52:04Z) - HinglishNLP: Fine-tuned Language Models for Hinglish Sentiment Detection [0.0]
この研究は感情分析に2つの一般的なアプローチを加えている。
NB-SVMはRoBERTaを6.2%(相対)F1で破った。
最高の演奏モデルは、0.707のF1を達成する多数投票アンサンブルである。
論文 参考訳(メタデータ) (2020-08-22T12:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。