Fugu-MT 論文翻訳(概要): XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages and Meaning Representations

論文の概要: XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages and Meaning Representations

arxiv url: http://arxiv.org/abs/2306.04085v1
Date: Wed, 7 Jun 2023 01:09:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 16:36:55.917521
Title: XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages and Meaning Representations
Title（参考訳）: XSemPLR:複数自然言語における言語間意味解析と意味表現
Authors: Yusen Zhang, Jun Wang, Zhiguo Wang, Rui Zhang
Abstract要約: Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。 XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
参考スコア（独自算出の注目度）: 25.50509874992198
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-Lingual Semantic Parsing (CLSP) aims to translate queries in multiple natural languages (NLs) into meaning representations (MRs) such as SQL, lambda calculus, and logic forms. However, existing CLSP models are separately proposed and evaluated on datasets of limited tasks and applications, impeding a comprehensive and unified evaluation of CLSP on a diverse range of NLs and MRs. To this end, we present XSemPLR, a unified benchmark for cross-lingual semantic parsing featured with 22 natural languages and 8 meaning representations by examining and selecting 9 existing datasets to cover 5 tasks and 164 domains. We use XSemPLR to conduct a comprehensive benchmark study on a wide range of multilingual language models including encoder-based models (mBERT, XLM-R), encoder-decoder models (mBART, mT5), and decoder-based models (Codex, BLOOM). We design 6 experiment settings covering various lingual combinations (monolingual, multilingual, cross-lingual) and numbers of learning samples (full dataset, few-shot, and zero-shot). Our experiments show that encoder-decoder models (mT5) achieve the highest performance compared with other popular models, and multilingual training can further improve the average performance. Notably, multilingual large language models (e.g., BLOOM) are still inadequate to perform CLSP tasks. We also find that the performance gap between monolingual training and cross-lingual transfer learning is still significant for multilingual models, though it can be mitigated by cross-lingual few-shot training. Our dataset and code are available at https://github.com/psunlpgroup/XSemPLR.
Abstract（参考訳）: Cross-Lingual Semantic Parsing (CLSP)は、複数の自然言語(NL)のクエリを、SQL、ラムダ計算、論理形式などの意味表現(MR)に変換することを目的としている。しかし,既存のCLSPモデルは,限られたタスクやアプリケーションのデータセットに基づいて別々に提案・評価され,多様なNLやMRに対するCLSPの包括的かつ統一的な評価が妨げられている。そのために,22の自然言語と8の表現を特徴とする言語間セマンティック解析のための統一ベンチマークであるXSemPLRを提案する。我々は、XSemPLRを用いて、エンコーダベースモデル(mBERT, XLM-R)、エンコーダデコーダモデル(mBART, mT5)、デコーダベースモデル(Codex, BLOOM)を含む幅広い多言語モデルに関する包括的なベンチマーク研究を行う。様々な言語の組み合わせ(単言語、多言語、クロス言語)と学習サンプル(フルデータセット、少数ショット、ゼロショット)をカバーする実験設定を6つ設計した。本実験では、エンコーダ・デコーダモデル(mt5)が他の一般的なモデルと比較して高い性能を達成し、多言語訓練により平均性能がさらに向上することを示す。特に、多言語大言語モデル(例えばBLOOM)はCLSPタスクの実行には不適当である。また,多言語モデルでは,単言語間学習と多言語間移動学習のパフォーマンスギャップが依然として重要であることも確認した。私たちのデータセットとコードはhttps://github.com/psunlpgroup/xsemplrで利用可能です。

関連論文リスト

Multilingual Definition Modeling [1.9409995498330783]
私たちは4つの新言語(スペイン語、フランス語、ポルトガル語、ドイツ語)に単言語辞書データを使用します。このデータに微調整を施すと, 単文単語の定義モデル上で, 事前学習した多言語言語モデルの性能を検証した。結果から,多言語モデルでは英語のオンペア化が可能であるが,言語間相乗効果の可能性が示唆された。
論文参考訳（メタデータ） (2025-06-02T09:48:37Z)
MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。 MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文参考訳（メタデータ） (2025-02-19T10:13:43Z)
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。 LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。 5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-01T15:43:07Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文参考訳（メタデータ） (2024-08-08T12:57:14Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Cross-Lingual Text Classification with Multilingual Distillation and Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM) 教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法 2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文参考訳（メタデータ） (2022-02-28T09:51:32Z)
A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文参考訳（メタデータ） (2021-10-15T01:10:50Z)
CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文参考訳（メタデータ） (2020-06-11T13:15:59Z)
GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文参考訳（メタデータ） (2020-04-26T13:28:34Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。