論文の概要: XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations
- arxiv url: http://arxiv.org/abs/2306.04085v1
- Date: Wed, 7 Jun 2023 01:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 16:36:55.917521
- Title: XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations
- Title(参考訳): XSemPLR:複数自然言語における言語間意味解析と意味表現
- Authors: Yusen Zhang, Jun Wang, Zhiguo Wang, Rui Zhang
- Abstract要約: Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。
既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。
XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
- 参考スコア(独自算出の注目度): 25.50509874992198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-Lingual Semantic Parsing (CLSP) aims to translate queries in multiple
natural languages (NLs) into meaning representations (MRs) such as SQL, lambda
calculus, and logic forms. However, existing CLSP models are separately
proposed and evaluated on datasets of limited tasks and applications, impeding
a comprehensive and unified evaluation of CLSP on a diverse range of NLs and
MRs. To this end, we present XSemPLR, a unified benchmark for cross-lingual
semantic parsing featured with 22 natural languages and 8 meaning
representations by examining and selecting 9 existing datasets to cover 5 tasks
and 164 domains. We use XSemPLR to conduct a comprehensive benchmark study on a
wide range of multilingual language models including encoder-based models
(mBERT, XLM-R), encoder-decoder models (mBART, mT5), and decoder-based models
(Codex, BLOOM). We design 6 experiment settings covering various lingual
combinations (monolingual, multilingual, cross-lingual) and numbers of learning
samples (full dataset, few-shot, and zero-shot). Our experiments show that
encoder-decoder models (mT5) achieve the highest performance compared with
other popular models, and multilingual training can further improve the average
performance. Notably, multilingual large language models (e.g., BLOOM) are
still inadequate to perform CLSP tasks. We also find that the performance gap
between monolingual training and cross-lingual transfer learning is still
significant for multilingual models, though it can be mitigated by
cross-lingual few-shot training. Our dataset and code are available at
https://github.com/psunlpgroup/XSemPLR.
- Abstract(参考訳): Cross-Lingual Semantic Parsing (CLSP)は、複数の自然言語(NL)のクエリを、SQL、ラムダ計算、論理形式などの意味表現(MR)に変換することを目的としている。
しかし,既存のCLSPモデルは,限られたタスクやアプリケーションのデータセットに基づいて別々に提案・評価され,多様なNLやMRに対するCLSPの包括的かつ統一的な評価が妨げられている。そのために,22の自然言語と8の表現を特徴とする言語間セマンティック解析のための統一ベンチマークであるXSemPLRを提案する。
我々は、XSemPLRを用いて、エンコーダベースモデル(mBERT, XLM-R)、エンコーダデコーダモデル(mBART, mT5)、デコーダベースモデル(Codex, BLOOM)を含む幅広い多言語モデルに関する包括的なベンチマーク研究を行う。
様々な言語の組み合わせ(単言語、多言語、クロス言語)と学習サンプル(フルデータセット、少数ショット、ゼロショット)をカバーする実験設定を6つ設計した。
本実験では、エンコーダ・デコーダモデル(mt5)が他の一般的なモデルと比較して高い性能を達成し、多言語訓練により平均性能がさらに向上することを示す。
特に、多言語大言語モデル(例えばBLOOM)はCLSPタスクの実行には不適当である。
また,多言語モデルでは,単言語間学習と多言語間移動学習のパフォーマンスギャップが依然として重要であることも確認した。
私たちのデータセットとコードはhttps://github.com/psunlpgroup/xsemplrで利用可能です。
関連論文リスト
- MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティ内で注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
言語間コードクローンの識別のための5つの大言語モデル (LLM) と8つのプロンプト (08) の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。