論文の概要: CST5: Data Augmentation for Code-Switched Semantic Parsing
- arxiv url: http://arxiv.org/abs/2211.07514v1
- Date: Mon, 14 Nov 2022 16:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:49:47.079645
- Title: CST5: Data Augmentation for Code-Switched Semantic Parsing
- Title(参考訳): CST5: コード変換セマンティックパースのためのデータ拡張
- Authors: Anmol Agarwal, Jigar Gupta, Rahul Goel, Shyam Upadhyay, Pankaj Joshi,
Rengarajan Aravamudhan
- Abstract要約: CST5は、T5モデルを微調整し、英語の発話からコード切替音声を生成する新しいデータ拡張手法である。
我々は,CST5が内在的(人間による評価)かつ外在的に,高品質なコード切替データを生成することを示す。
この領域のさらなる研究を支援するため、(a)Hinglish-TOPもリリースする。これは、これまでで最大の人間の注釈付きコード変更セマンティックパーシングデータセットで、10k人の注釈付きヒンディー語(ヒンディー語)コード変更発話と(b)170万以上のCST5生成コード修正を含む。
- 参考スコア(独自算出の注目度): 8.376735331249462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extending semantic parsers to code-switched input has been a challenging
problem, primarily due to a lack of supervised training data. In this work, we
introduce CST5, a new data augmentation technique that finetunes a T5 model
using a small seed set ($\approx$100 utterances) to generate code-switched
utterances from English utterances. We show that CST5 generates high quality
code-switched data, both intrinsically (per human evaluation) and extrinsically
by comparing baseline models which are trained without data augmentation to
models which are trained with augmented data. Empirically we observe that using
CST5, one can achieve the same semantic parsing performance by using up to 20x
less labeled data. To aid further research in this area, we are also releasing
(a) Hinglish-TOP, the largest human annotated code-switched semantic parsing
dataset to date, containing 10k human annotated Hindi-English (Hinglish)
code-switched utterances, and (b) Over 170K CST5 generated code-switched
utterances from the TOPv2 dataset. Human evaluation shows that both the human
annotated data as well as the CST5 generated data is of good quality.
- Abstract(参考訳): コード変更入力へのセマンティックパーサの拡張は、主に教師付きトレーニングデータがないため、難しい問題であった。
本研究では,小さなシードセット($100発話)を用いてT5モデルを微調整し,英語の発話からコード切替音声を生成する新しいデータ拡張手法であるCST5を紹介する。
CST5は、データ拡張なしで訓練されたベースラインモデルと、強化されたデータで訓練されたモデルを比較して、本質的な(人間による評価による)高品質なコード切替データを生成する。
CST5を使用することで、最大20倍のラベル付きデータを使用することで、同じセマンティック解析性能を実現することができる。
この分野のさらなる研究を支援するため、我々はまたリリースする。
(a)hinglish-topは、これまでで最大の人間の注釈付きコードスイッチ付きセマンティックパースデータセットで、10k人のアノテーション付きヒンディー語(ヒンディー語)コードスイッチ付き発話を含む。
(b)170万以上のCST5がTOPv2データセットからコード変更された発話を生成した。
人間による評価は、人間の注釈付きデータとCST5生成データの両方が良質であることを示している。
関連論文リスト
- MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。
MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Generate labeled training data using Prompt Programming and GPT-3. An
example of Big Five Personality Classification [0.0]
GPT-3におけるプロンプトプログラミングを用いて、ビッグファイブパーソナリティ特性をラベル付けした25,000の会話を生成する。
そして、これらのデータを用いてBig Five分類モデルをトレーニングし、生成した対話データと人間のアノテーションによってBig Fiveにラベル付けされた実際の会話データセットから2500データで評価する。
論文 参考訳(メタデータ) (2023-03-22T03:12:40Z) - Evaluating Byte and Wordpiece Level Models for Massively Multilingual
Semantic Parsing [3.431659287330068]
バイトレベル(ByT5)とワードピースベース(mT5)をMASSIVE多言語意味解析データセットの51言語におけるシーケンスモデルと比較する。
すべての言語からのゴールドデータに基づいてトレーニングされたモデルに対して、正確なマッチング精度のギャップを5ポイントに縮めることができます。
論文 参考訳(メタデータ) (2022-12-14T13:48:32Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Conciseness: An Overlooked Language Task [11.940413163824887]
タスクを定義し、要約や単純化といった関連するタスクとは異なることを示す。
大規模なニューラルネットワークモデルによるゼロショットセットアップがよく機能しない場合、簡潔性は難しい課題であることを示す。
論文 参考訳(メタデータ) (2022-11-08T09:47:11Z) - Improving Low-Resource Speech Recognition with Pretrained Speech Models:
Continued Pretraining vs. Semi-Supervised Training [6.523198497365586]
wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。
単語誤り率 (WER) は半教師あり訓練 (SST) よりも若干優れていた。
さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-07-01T21:02:51Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Enhanced Offensive Language Detection Through Data Augmentation [2.2022484178680872]
ICWSM-2020 Data Challenge Task 2は、100万のラベル付きツイートを含むクラウドソースデータセットを使用して、攻撃的なコンテンツを特定することを目的としている。
データセットはクラス不均衡に悩まされており、特定のラベルは他のクラスと比較して非常に稀である。
本稿では,不均衡データと低リソースデータの分類性能を向上させる世代別データ拡張手法であるDagerを提案する。
論文 参考訳(メタデータ) (2020-12-05T05:45:16Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。