論文の概要: CLASP: Few-Shot Cross-Lingual Data Augmentation for Semantic Parsing
- arxiv url: http://arxiv.org/abs/2210.07074v2
- Date: Fri, 14 Oct 2022 09:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 12:22:17.475113
- Title: CLASP: Few-Shot Cross-Lingual Data Augmentation for Semantic Parsing
- Title(参考訳): CLASP:Semantic ParsingのためのFew-ShotクロスLingual Data Augmentation
- Authors: Andy Rosenbaum, Saleh Soltan, Wael Hamza, Amir Saffari, Marco Damonte,
Isabel Groves
- Abstract要約: CLASPはAlexaTM 20Bから合成データを生成し、モデルのトレーニングセットを40倍小さくする(500Mパラメータ)。
低リソース環境での2つのデータセットを評価する。348例または16例の実例を含む英語PIZZAと、トレーニングデータが英語でのみ利用できるmTOPクロスランガルゼロショットである。
- 参考スコア(独自算出の注目度): 9.338266891598973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A bottleneck to developing Semantic Parsing (SP) models is the need for a
large volume of human-labeled training data. Given the complexity and cost of
human annotation for SP, labeled data is often scarce, particularly in
multilingual settings. Large Language Models (LLMs) excel at SP given only a
few examples, however LLMs are unsuitable for runtime systems which require low
latency. In this work, we propose CLASP, a simple method to improve
low-resource SP for moderate-sized models: we generate synthetic data from
AlexaTM 20B to augment the training set for a model 40x smaller (500M
parameters). We evaluate on two datasets in low-resource settings: English
PIZZA, containing either 348 or 16 real examples, and mTOP cross-lingual
zero-shot, where training data is available only in English, and the model must
generalize to four new languages. On both datasets, we show significant
improvements over strong baseline methods.
- Abstract(参考訳): セマンティック解析(sp)モデルを開発する上でのボトルネックは、大量の人間ラベルトレーニングデータが必要であることだ。
SPの人間アノテーションの複雑さとコストを考えると、ラベル付きデータは、特に多言語設定では、しばしば不足する。
LLM(Large Language Models)は、いくつかの例を挙げるとSPで優れているが、LLMは低レイテンシを必要とするランタイムシステムには適していない。
本研究では,中規模モデルの低リソースspを改善するための簡易な手法であるclaspを提案する。我々は,モデル40倍小さく(500mパラメータ)のトレーニングセットを強化するために,alexatm 20bから合成データを生成する。
2つのデータセットを低リソース環境で評価した: 実例348または16のサンプルを含むイングリッシュピザと、トレーニングデータが英語でのみ利用可能で、モデルが4つの新しい言語に一般化しなければならないmtopクロスリンガルゼロショットである。
どちらのデータセットでも,強いベースライン法よりも大幅な改善が見られた。
関連論文リスト
- DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning [4.8838210812204235]
本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。
我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。
我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
論文 参考訳(メタデータ) (2024-04-14T06:55:42Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations [25.50509874992198]
Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。
既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。
XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
論文 参考訳(メタデータ) (2023-06-07T01:09:37Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - BERTIN: Efficient Pre-Training of a Spanish Language Model using
Perplexity Sampling [0.0]
Common Crawlは、この事前学習サブ最適化を実現するのに十分なノイズを含むかもしれない。
約半分のステップで言語モデルの事前学習を可能にする新しいデータ中心手法を提案する。
私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングするための道を開くものです。
論文 参考訳(メタデータ) (2022-07-14T10:48:42Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。