論文の概要: From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences
- arxiv url: http://arxiv.org/abs/2405.05572v1
- Date: Thu, 9 May 2024 06:40:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:02:33.647489
- Title: From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences
- Title(参考訳): 人間の判断から予測モデルへ:コード混在文の受容性について
- Authors: Prashant Kodali, Anmol Goel, Likhith Asapu, Vamshi Krishna Bonagiri, Anirudh Govil, Monojit Choudhury, Manish Shrivastava, Ponnurangam Kumaraguru,
- Abstract要約: コード混在テキストの受理性に関する人間の判断をモデル化することは、自然なコード混在テキストの識別に役立ちます。
クラインは16,642文のタイプの中で最大であり、2つの情報源から得られたサンプルで構成されている。
Clineを用いた実験では、コードミキシングのメトリクスのみに基づいて訓練された単純な多層パーセプトロン(MLP)モデルが、微調整された多言語大言語モデル(MLLM)より優れていることが示された。
- 参考スコア(独自算出の注目度): 18.53327811304381
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current computational approaches for analysing or generating code-mixed sentences do not explicitly model "naturalness" or "acceptability" of code-mixed sentences, but rely on training corpora to reflect distribution of acceptable code-mixed sentences. Modelling human judgement for the acceptability of code-mixed text can help in distinguishing natural code-mixed text and enable quality-controlled generation of code-mixed text. To this end, we construct Cline - a dataset containing human acceptability judgements for English-Hindi (en-hi) code-mixed text. Cline is the largest of its kind with 16,642 sentences, consisting of samples sourced from two sources: synthetically generated code-mixed text and samples collected from online social media. Our analysis establishes that popular code-mixing metrics such as CMI, Number of Switch Points, Burstines, which are used to filter/curate/compare code-mixed corpora have low correlation with human acceptability judgements, underlining the necessity of our dataset. Experiments using Cline demonstrate that simple Multilayer Perceptron (MLP) models trained solely on code-mixing metrics are outperformed by fine-tuned pre-trained Multilingual Large Language Models (MLLMs). Specifically, XLM-Roberta and Bernice outperform IndicBERT across different configurations in challenging data settings. Comparison with ChatGPT's zero and fewshot capabilities shows that MLLMs fine-tuned on larger data outperform ChatGPT, providing scope for improvement in code-mixed tasks. Zero-shot transfer from English-Hindi to English-Telugu acceptability judgments using our model checkpoints proves superior to random baselines, enabling application to other code-mixed language pairs and providing further avenues of research. We publicly release our human-annotated dataset, trained checkpoints, code-mix corpus, and code for data generation and model training.
- Abstract(参考訳): コード混在文の分析や生成のための現在の計算手法は、コード混在文の「自然性」や「受容性」を明示的にモデル化するのではなく、許容されるコード混在文の分布を反映するためにコーパスを訓練している。
コードミックステキストの受理性に対する人間の判断のモデル化は、自然なコードミックステキストを識別し、コードミックステキストの品質管理を可能にする。
この目的のために、英語ヒンディー語(en-hi)のコード混合テキストに対する人間の受容可能性判断を含むデータセットであるClineを構築した。
Clineは16,642文の文章で、合成生成されたコードミックステキストとオンラインソーシャルメディアから収集されたサンプルという2つのソースから得られたサンプルで構成されている。
解析の結果,CMIやスイッチポイント数,Burstinesなどの一般的なコード混合指標は,コード混在コーパスのフィルタリング/校正/比較に使用されており,人間の受理性判定と相関が低く,データセットの必要性を裏付けるものであることが確認された。
Clineを用いた実験では、コードミキシングのメトリクスのみに基づいて訓練された単純な多層パーセプトロン(MLP)モデルは、微調整された事前訓練された多言語言語モデル(MLLM)により性能が向上することを示した。
具体的には、XLM-RobertaとBerniceは、挑戦的なデータ設定において、さまざまな設定でIndicBERTを上回っている。
ChatGPT の 0 および fewshot 機能と比較すると、MLLM はChatGPT より優れたデータで微調整され、コード混合タスクの改善のスコープを提供する。
我々のモデルチェックポイントを用いた英語-ヒンディー語から英語-テルグ語の受容性判定へのゼロショット変換は、ランダムなベースラインよりも優れていることを証明し、他のコード混合言語ペアに適用し、さらなる研究の道筋を提供する。
我々は、人間のアノテーション付きデータセット、トレーニングされたチェックポイント、コードミックスコーパス、データ生成とモデルトレーニングのためのコードを公開した。
関連論文リスト
- A Fundamental Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
汎用言語モデルとその整列バージョンが与えられた場合、一般的な言語モデルの下では、平均報酬と平均ログライクな文字列の間にトレードオフが存在する。
この問題を形式的に処理し、サンプリングアダプタの選択が、報酬と交換する可能性の選択を可能にすることを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - Elevating Code-mixed Text Handling through Auditory Information of Words [24.53638976212391]
本稿では,SOUNDEXの単語の聴覚情報を用いて,コード混合テキストデータを扱うための言語モデルを作成するための効果的な手法を提案する。
提案手法は,SOUNDEX表現(SAMLM)と事前学習モデルに入力データを提供する新しい方法を含む,マスク付き言語モデルに基づく事前学習ステップを含む。
論文 参考訳(メタデータ) (2023-10-27T14:03:30Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models
and Evaluation Benchmarks [0.7874708385247353]
私たちは、コードミキシングにおける事前の作業が欠けている低リソースのインドの言語であるMarathiにフォーカスしています。
L3Cube-MeCorpusは,Mr-Enコーパスと1000万のソーシャルメディア文による事前学習用コーパスである。
また、コード混合BERTベースのトランスモデルであるL3Cube-MeBERTとMeRoBERTaをMeCorpusで事前学習した。
論文 参考訳(メタデータ) (2023-06-24T18:17:38Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing [19.19256927651015]
モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。
事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。
私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
論文 参考訳(メタデータ) (2021-05-18T19:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。