論文の概要: PreCogIIITH at HinglishEval : Leveraging Code-Mixing Metrics & Language
Model Embeddings To Estimate Code-Mix Quality
- arxiv url: http://arxiv.org/abs/2206.07988v1
- Date: Thu, 16 Jun 2022 08:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 15:01:47.613011
- Title: PreCogIIITH at HinglishEval : Leveraging Code-Mixing Metrics & Language
Model Embeddings To Estimate Code-Mix Quality
- Title(参考訳): HinglishEvalにおけるPreCogIIITH : Code-Mixing Metrics & Language Model Embeddingsの活用によるコード-Mix品質の推定
- Authors: Prashant Kodali, Tanmay Sachan, Akshay Goindani, Anmol Goel, Naman
Ahuja, Manish Shrivastava, Ponnurangam Kumaraguru
- Abstract要約: 我々は、コードミックス品質のレーティングを予測し、合成生成したコードミックステキストの品質に影響を与えるモデルを構築しようとしている。
INLG2022と協調した共有タスクであるHinglishEvalへの投稿で、私たちは、コードミックス品質のレーティングを予測することによって、合成されたコードミックステキストの品質に影響を与えるモデルを構築しようとしています。
- 参考スコア(独自算出の注目度): 18.806186479627335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code-Mixing is a phenomenon of mixing two or more languages in a speech event
and is prevalent in multilingual societies. Given the low-resource nature of
Code-Mixing, machine generation of code-mixed text is a prevalent approach for
data augmentation. However, evaluating the quality of such machine generated
code-mixed text is an open problem. In our submission to HinglishEval, a
shared-task collocated with INLG2022, we attempt to build models factors that
impact the quality of synthetically generated code-mix text by predicting
ratings for code-mix quality.
- Abstract(参考訳): コードミキシング(Code-Mixing)は、2つ以上の言語を混合した音声イベントであり、多言語社会で普及している。
Code-Mixingの低リソース性を考えると、コード混合テキストのマシン生成はデータ拡張の一般的なアプローチである。
しかし、このような機械が生成するコード混合テキストの品質評価は、オープンな問題である。
inlg2022と共通した共有タスクであるhinglishevalへの提案では、コード混合品質のレーティングを予測することによって、合成生成コード混合テキストの品質に影響を与えるモデル要素の構築を試みる。
関連論文リスト
- Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences [18.53327811304381]
コード混在テキストの受理性に関する人間の判断をモデル化することは、自然なコード混在テキストの識別に役立ちます。
クラインは16,642文のタイプの中で最大であり、2つの情報源から得られたサンプルで構成されている。
Clineを用いた実験では、コードミキシングのメトリクスのみに基づいて訓練された単純な多層パーセプトロン(MLP)モデルが、微調整された多言語大言語モデル(MLLM)より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-09T06:40:39Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - Persona-aware Generative Model for Code-mixed Language [34.826316146894364]
我々は,実生活におけるコード混在テキストに似たテキストを生成するペルソナ認識生成モデルの開発を先駆的に試みている。
ユーザのペルソナに条件付き発話を符号化し,モノリンガル参照データのないコード混合テキストを生成するトランスフォーマーベースのエンコーダデコーダモデルを提案する。
PARADOXのCM BLEUは1.6ポイント、パープレキシティは47%、セマンティックコヒーレンスは32%向上した。
論文 参考訳(メタデータ) (2023-09-06T11:20:41Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - BITS Pilani at HinglishEval: Quality Evaluation for Code-Mixed Hinglish
Text Using Transformers [1.181206257787103]
本稿では,システムによって生成されたコードミクシングテキストデータの品質に影響を及ぼす要因を明らかにすることを目的とする。
HinglishEvalタスクでは,多言語BERTを用いて合成文と人文の類似性を求める。
論文 参考訳(メタデータ) (2022-06-17T10:36:50Z) - Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。
最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文 参考訳(メタデータ) (2021-10-10T02:30:31Z) - Quality Evaluation of the Low-Resource Synthetically Generated
Code-Mixed Hinglish Text [1.6675267471157407]
コードミキシングされたHinglish文を2つの異なるアプローチで合成する。
私たちは世代品質を評価するために人間アノテータを使用します。
論文 参考訳(メタデータ) (2021-08-04T06:02:46Z) - Challenges and Limitations with the Metrics Measuring the Complexity of
Code-Mixed Text [1.6675267471157407]
コードミキシング(Code-mixing)は、多言語話者の間で頻繁に行われるコミュニケーションスタイルであり、テキストや音声の同じ発話で2つの異なる言語からの単語とフレーズを混ぜる。
本稿では、様々な実験で広く使われている既存のデータセットの例とともに、コード混合メトリクスのいくつかの固有の制限を示す。
論文 参考訳(メタデータ) (2021-06-18T13:26:48Z) - CodemixedNLP: An Extensible and Open NLP Toolkit for Code-Mixing [44.54537067761167]
私たちは、コードミックスNLPの進歩をまとめ、より広い機械学習コミュニティに開放するという目標を掲げた、オープンソースのライブラリであるCodemixedを紹介します。
このライブラリは、混合テキストに適した多目的モデルアーキテクチャの開発とベンチマークを行うツール、トレーニングセットを拡張する方法、混合スタイルの定量化技術、ヒングリッシュの7つのタスクのための微調整された最先端モデルで構成されている。
論文 参考訳(メタデータ) (2021-06-10T18:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。