論文の概要: XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations
- arxiv url: http://arxiv.org/abs/2306.04085v1
- Date: Wed, 7 Jun 2023 01:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 16:36:55.917521
- Title: XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations
- Title(参考訳): XSemPLR:複数自然言語における言語間意味解析と意味表現
- Authors: Yusen Zhang, Jun Wang, Zhiguo Wang, Rui Zhang
- Abstract要約: Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。
既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。
XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
- 参考スコア(独自算出の注目度): 25.50509874992198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-Lingual Semantic Parsing (CLSP) aims to translate queries in multiple
natural languages (NLs) into meaning representations (MRs) such as SQL, lambda
calculus, and logic forms. However, existing CLSP models are separately
proposed and evaluated on datasets of limited tasks and applications, impeding
a comprehensive and unified evaluation of CLSP on a diverse range of NLs and
MRs. To this end, we present XSemPLR, a unified benchmark for cross-lingual
semantic parsing featured with 22 natural languages and 8 meaning
representations by examining and selecting 9 existing datasets to cover 5 tasks
and 164 domains. We use XSemPLR to conduct a comprehensive benchmark study on a
wide range of multilingual language models including encoder-based models
(mBERT, XLM-R), encoder-decoder models (mBART, mT5), and decoder-based models
(Codex, BLOOM). We design 6 experiment settings covering various lingual
combinations (monolingual, multilingual, cross-lingual) and numbers of learning
samples (full dataset, few-shot, and zero-shot). Our experiments show that
encoder-decoder models (mT5) achieve the highest performance compared with
other popular models, and multilingual training can further improve the average
performance. Notably, multilingual large language models (e.g., BLOOM) are
still inadequate to perform CLSP tasks. We also find that the performance gap
between monolingual training and cross-lingual transfer learning is still
significant for multilingual models, though it can be mitigated by
cross-lingual few-shot training. Our dataset and code are available at
https://github.com/psunlpgroup/XSemPLR.
- Abstract(参考訳): Cross-Lingual Semantic Parsing (CLSP)は、複数の自然言語(NL)のクエリを、SQL、ラムダ計算、論理形式などの意味表現(MR)に変換することを目的としている。
しかし,既存のCLSPモデルは,限られたタスクやアプリケーションのデータセットに基づいて別々に提案・評価され,多様なNLやMRに対するCLSPの包括的かつ統一的な評価が妨げられている。そのために,22の自然言語と8の表現を特徴とする言語間セマンティック解析のための統一ベンチマークであるXSemPLRを提案する。
我々は、XSemPLRを用いて、エンコーダベースモデル(mBERT, XLM-R)、エンコーダデコーダモデル(mBART, mT5)、デコーダベースモデル(Codex, BLOOM)を含む幅広い多言語モデルに関する包括的なベンチマーク研究を行う。
様々な言語の組み合わせ(単言語、多言語、クロス言語)と学習サンプル(フルデータセット、少数ショット、ゼロショット)をカバーする実験設定を6つ設計した。
本実験では、エンコーダ・デコーダモデル(mt5)が他の一般的なモデルと比較して高い性能を達成し、多言語訓練により平均性能がさらに向上することを示す。
特に、多言語大言語モデル(例えばBLOOM)はCLSPタスクの実行には不適当である。
また,多言語モデルでは,単言語間学習と多言語間移動学習のパフォーマンスギャップが依然として重要であることも確認した。
私たちのデータセットとコードはhttps://github.com/psunlpgroup/xsemplrで利用可能です。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。