論文の概要: MELA: Multilingual Evaluation of Linguistic Acceptability
- arxiv url: http://arxiv.org/abs/2311.09033v2
- Date: Sun, 3 Mar 2024 06:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:37:34.417473
- Title: MELA: Multilingual Evaluation of Linguistic Acceptability
- Title(参考訳): MELA:言語学的アクセプティビリティの多言語評価
- Authors: Ziyin Zhang and Yikang Liu and Weifang Huang and Junyu Mao and Rui
Wang and Hai Hu
- Abstract要約: MELAは、言語受容性に関する最初の多言語ベンチマークであり、10言語をカバーする48Kの判断である。
多言語解釈可能性の追求において, 微調整XLM-Rの重み解析を行った。
言語間およびマルチタスク学習実験は、意味的タスクとは異なり、言語内トレーニングデータが受容性に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 7.972947286843729
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent benchmarks for Large Language Models (LLMs) have mostly focused on
application-driven tasks such as complex reasoning and code generation, and
this has led to a scarcity in purely linguistic evaluation of LLMs. Against
this background, we introduce Multilingual Evaluation of Linguistic
Acceptability -- MELA, the first multilingual benchmark on linguistic
acceptability with 48K samples covering 10 languages from a diverse set of
language families. We establish baselines of commonly used LLMs along with
supervised models, and conduct cross-lingual transfer and multi-task learning
experiments with XLM-R. In pursuit of multilingual interpretability, we analyze
the weights of fine-tuned XLM-R to explore the possibility of identifying
transfer difficulty between languages. Our results show that ChatGPT benefits
much from in-context examples but still lags behind fine-tuned XLM-R, while the
performance of GPT-4 is on par with fine-tuned XLM-R even in zero-shot setting.
Cross-lingual and multi-task learning experiments show that unlike semantic
tasks, in-language training data is crucial in acceptability judgements.
Results in layerwise probing indicate that the upper layers of XLM-R become a
task-specific but language-agnostic region for multilingual acceptability
judgment. We also introduce the concept of conflicting weight, which could be a
potential indicator for the difficulty of cross-lingual transfer between
languages. Our data will be available at https://github.com/sjtu-compling/MELA.
- Abstract(参考訳): 最近の大規模言語モデル(llm)のベンチマークは、主に複雑な推論やコード生成といったアプリケーション駆動のタスクに焦点が当てられている。
この背景に対して,言語受容性に関する多言語評価 - melaは,言語受容性に関する最初の多言語ベンチマークであり,多様な言語ファミリーから10言語をカバーする48kサンプルがある。
我々は、教師付きモデルとともによく使われるLLMのベースラインを確立し、XLM-Rを用いて言語間移動およびマルチタスク学習実験を行う。
言語間の伝達難易度を同定する可能性を探るために, 微調整xlm-rの重みを解析した。
GPT-4はゼロショット設定でも微調整されたXLM-Rに匹敵する性能を示した。
言語間およびマルチタスク学習実験は、意味的タスクとは異なり、言語内トレーニングデータが受容可能性判断に不可欠であることを示す。
層別調査の結果, xlm-rの上層層は多言語アクセシビリティ判断のタスク固有だが言語非依存領域となった。
また,言語間の言語間移動の困難さを示す指標として,競合重みの概念も導入する。
私たちのデータはhttps://github.com/sjtu-compling/melaで入手できます。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes [9.254047358707014]
本稿では,Alpaca-52K,Dolly-15K,Vicuna Benchmarkを132言語に翻訳する多言語インストラクション・チューニングデータセット(MITS)を紹介する。
次に,emphTaCo: Translation-Assisted Cross-Lingualityという新たな手法を提案する。
提案手法は,Vicuna Benchmark データセットの低リソース言語に対して 82% のスコアで GPT-4 を圧縮し,命令チューニングと比較して性能を2倍にすることを示す。
論文 参考訳(メタデータ) (2023-11-17T06:55:32Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - Probing Multilingual Language Models for Discourse [0.0]
XLM-RoBERTaファミリーのモデルが常に最高のパフォーマンスを示していることが分かりました。
また, モデル蒸留は, 文表現の言語間移動能力に悪影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-09T06:34:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。