論文の概要: JU_NLP at HinglishEval: Quality Evaluation of the Low-Resource
Code-Mixed Hinglish Text
- arxiv url: http://arxiv.org/abs/2206.08053v1
- Date: Thu, 16 Jun 2022 10:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 05:25:56.987353
- Title: JU_NLP at HinglishEval: Quality Evaluation of the Low-Resource
Code-Mixed Hinglish Text
- Title(参考訳): HinglishEvalにおけるJU_NLP:低リソースコード混合Hinglishテキストの品質評価
- Authors: Prantik Guha, Rudra Dhar, Dipankar Das
- Abstract要約: 合成Hinglishデータセットの平均評価スコアと分解スコアを予測するために,Bi-LSTMに基づくニューラルネットワークモデルを実装した。
我々はF1スコア0.11を達成し,平均スコア予測タスクでは平均2乗誤差6.0を達成した。
- 参考スコア(独自算出の注目度): 0.7775650627548182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we describe a system submitted to the INLG 2022 Generation
Challenge (GenChal) on Quality Evaluation of the Low-Resource Synthetically
Generated Code-Mixed Hinglish Text. We implement a Bi-LSTM-based neural network
model to predict the Average rating score and Disagreement score of the
synthetic Hinglish dataset. In our models, we used word embeddings for English
and Hindi data, and one hot encodings for Hinglish data. We achieved a F1 score
of 0.11, and mean squared error of 6.0 in the average rating score prediction
task. In the task of Disagreement score prediction, we achieve a F1 score of
0.18, and mean squared error of 5.0.
- Abstract(参考訳): 本稿では,INLG 2022 生成チャレンジ (GenChal) に提出された低リソース合成コードミキシングヒングリッシュテキストの品質評価システムについて述べる。
合成Hinglishデータセットの平均評価スコアと分解スコアを予測するために,Bi-LSTMに基づくニューラルネットワークモデルを実装した。
我々のモデルでは、英語とヒンディー語のデータに単語埋め込みを使い、Hinglishデータに1つのホットエンコーディングを使いました。
平均スコア予測タスクにおいて,F1スコア0.11,平均2乗誤差6.0を達成した。
判定スコア予測のタスクでは、F1スコアが0.18、平均2乗誤差が5.0となる。
関連論文リスト
- Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - niksss at HinglishEval: Language-agnostic BERT-based Contextual
Embeddings with Catboost for Quality Evaluation of the Low-Resource
Synthetically Generated Code-Mixed Hinglish Text [0.0]
本稿では,INLG 2022におけるHinglishEvalチャレンジのシステム記述について述べる。
本研究の目的は,コード混合テキスト生成システムの品質に影響を及ぼす要因について検討することであった。
論文 参考訳(メタデータ) (2022-06-17T17:36:03Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z) - InsertGNN: Can Graph Neural Networks Outperform Humans in TOEFL Sentence
Insertion Problem? [66.70154236519186]
センテンス挿入は繊細だが基本的なNLP問題である。
文順序付け、テキストコヒーレンス、質問応答(QA)の現在のアプローチは、その解決には適さない。
本稿では,この問題をグラフとして表現し,グラフニューラルネットワーク(GNN)を用いて文間の関係を学習するモデルであるInsertGNNを提案する。
論文 参考訳(メタデータ) (2021-03-28T06:50:31Z) - Theedhum Nandrum@Dravidian-CodeMix-FIRE2020: A Sentiment Polarity
Classifier for YouTube Comments with Code-switching between Tamil, Malayalam
and English [0.0]
Theedhum Nandrumは2つのアプローチを用いた感情極性検出システムである。
絵文字の使用、スクリプトの選択、コードミキシングなどの言語機能を使用する。
タミル英語では4位、マラヤラム英語では平均F1得点が0.62、9得点が0.65である。
論文 参考訳(メタデータ) (2020-10-07T05:40:25Z) - WESSA at SemEval-2020 Task 9: Code-Mixed Sentiment Analysis using
Transformers [0.0]
本稿では,SemEval 2020 Task 9, Code-Mixed Social Media Text の感性分析を行う。
我々の最高の演奏システムは「XLM-RoBERTa」を微調整したトランスファーラーニングベースモデルである
その後の提出では、CodaLabのユーザネーム"ahmed0sultan"を使ってテストセットの平均F1スコアを75.9%達成することに成功した。
論文 参考訳(メタデータ) (2020-09-21T13:59:24Z) - ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention
Model for Sentiment Analysis in Code-Mixed Text [1.4926515182392508]
本稿では,SemEval 2020 Task 9 SentiMixに寄与したGenMAモデル感情分析システムについて述べる。
このシステムは、単語レベルの言語タグを使わずに、与えられた英語とヒンディー語を混合したツイートの感情を予測することを目的としている。
論文 参考訳(メタデータ) (2020-07-27T23:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。