論文の概要: El Volumen Louder Por Favor: Code-switching in Task-oriented Semantic
Parsing
- arxiv url: http://arxiv.org/abs/2101.10524v3
- Date: Thu, 28 Jan 2021 08:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 14:50:54.062305
- Title: El Volumen Louder Por Favor: Code-switching in Task-oriented Semantic
Parsing
- Title(参考訳): El Volumen Louder Por Favor:タスク指向セマンティックパーシングにおけるコードスイッチング
- Authors: Arash Einolghozati, Abhinav Arora, Lorena Sainz-Maza Lecanda, Anuj
Kumar, Sonal Gupta
- Abstract要約: 我々はSpanglish(スペイン語+英語)に注目し、セマンティックパースと合わせて5800のCS発話を含むデータセットCSTOPをリリースする。
各種言語間(XL)モデルのCS一般化性について検討し,1つの言語のみのデータが存在する場合,事前学習したXL言語モデルの利点を示す。
- 参考スコア(独自算出の注目度): 7.153795286069918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to parse code-switched (CS) utterances, such as Spanish+English or
Hindi+English, is essential to democratize task-oriented semantic parsing
systems for certain locales. In this work, we focus on Spanglish
(Spanish+English) and release a dataset, CSTOP, containing 5800 CS utterances
alongside their semantic parses. We examine the CS generalizability of various
Cross-lingual (XL) models and exhibit the advantage of pre-trained XL language
models when data for only one language is present. As such, we focus on
improving the pre-trained models for the case when only English corpus
alongside either zero or a few CS training instances are available. We propose
two data augmentation methods for the zero-shot and the few-shot settings:
fine-tune using translate-and-align and augment using a generation model
followed by match-and-filter. Combining the few-shot setting with the above
improvements decreases the initial 30-point accuracy gap between the zero-shot
and the full-data settings by two thirds.
- Abstract(参考訳): スペイン語+英語やヒンディー語+英語などのコードスイッチト(CS)音声を解析できることは、タスク指向のセマンティックパーシングシステムを特定のローカル向けに民主化する上で不可欠である。
本研究では,スパングリッシュ(スペイン語+英語)に焦点を当て,セマンティックパースと合わせて5800のCS発話を含むデータセットCSTOPをリリースする。
各種言語間(XL)モデルのCS一般化性について検討し,1つの言語のみのデータが存在する場合,事前学習したXL言語モデルの利点を示す。
そのため、ゼロまたはいくつかのCSトレーニングインスタンスが利用可能な英語のコーパスのみの場合のトレーニング済みモデルの改善に重点を置いています。
本研究では,0ショットと数ショットの2つのデータ拡張手法を提案する。翻訳と整列による微調整と,生成モデルによる拡張と,それに続くマッチングとフィルタである。
上記の改善と数ショット設定を組み合わせることで、ゼロショットとフルデータ設定の間の最初の30ポイント精度のギャップを2/3減らすことができる。
関連論文リスト
- Parameter-Efficient Cross-lingual Transfer of Vision and Language Models
via Translation-based Alignment [31.885608173448368]
CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。
異なる言語間のパフォーマンスの格差は、不均一なリソース可用性のために観測されている。
翻訳に基づくアライメント手法を用いて,多言語差を緩和するパラメータ効率のよい多言語間移動学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-02T14:09:02Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - CLASP: Few-Shot Cross-Lingual Data Augmentation for Semantic Parsing [9.338266891598973]
CLASPはAlexaTM 20Bから合成データを生成し、モデルのトレーニングセットを40倍小さくする(500Mパラメータ)。
低リソース環境での2つのデータセットを評価する。348例または16例の実例を含む英語PIZZAと、トレーニングデータが英語でのみ利用できるmTOPクロスランガルゼロショットである。
論文 参考訳(メタデータ) (2022-10-13T15:01:03Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。