論文の概要: MELA: Multilingual Evaluation of Linguistic Acceptability
- arxiv url: http://arxiv.org/abs/2311.09033v2
- Date: Sun, 3 Mar 2024 06:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:37:34.417473
- Title: MELA: Multilingual Evaluation of Linguistic Acceptability
- Title(参考訳): MELA:言語学的アクセプティビリティの多言語評価
- Authors: Ziyin Zhang and Yikang Liu and Weifang Huang and Junyu Mao and Rui
Wang and Hai Hu
- Abstract要約: MELAは、言語受容性に関する最初の多言語ベンチマークであり、10言語をカバーする48Kの判断である。
多言語解釈可能性の追求において, 微調整XLM-Rの重み解析を行った。
言語間およびマルチタスク学習実験は、意味的タスクとは異なり、言語内トレーニングデータが受容性に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 7.972947286843729
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent benchmarks for Large Language Models (LLMs) have mostly focused on
application-driven tasks such as complex reasoning and code generation, and
this has led to a scarcity in purely linguistic evaluation of LLMs. Against
this background, we introduce Multilingual Evaluation of Linguistic
Acceptability -- MELA, the first multilingual benchmark on linguistic
acceptability with 48K samples covering 10 languages from a diverse set of
language families. We establish baselines of commonly used LLMs along with
supervised models, and conduct cross-lingual transfer and multi-task learning
experiments with XLM-R. In pursuit of multilingual interpretability, we analyze
the weights of fine-tuned XLM-R to explore the possibility of identifying
transfer difficulty between languages. Our results show that ChatGPT benefits
much from in-context examples but still lags behind fine-tuned XLM-R, while the
performance of GPT-4 is on par with fine-tuned XLM-R even in zero-shot setting.
Cross-lingual and multi-task learning experiments show that unlike semantic
tasks, in-language training data is crucial in acceptability judgements.
Results in layerwise probing indicate that the upper layers of XLM-R become a
task-specific but language-agnostic region for multilingual acceptability
judgment. We also introduce the concept of conflicting weight, which could be a
potential indicator for the difficulty of cross-lingual transfer between
languages. Our data will be available at https://github.com/sjtu-compling/MELA.
- Abstract(参考訳): 最近の大規模言語モデル(llm)のベンチマークは、主に複雑な推論やコード生成といったアプリケーション駆動のタスクに焦点が当てられている。
この背景に対して,言語受容性に関する多言語評価 - melaは,言語受容性に関する最初の多言語ベンチマークであり,多様な言語ファミリーから10言語をカバーする48kサンプルがある。
我々は、教師付きモデルとともによく使われるLLMのベースラインを確立し、XLM-Rを用いて言語間移動およびマルチタスク学習実験を行う。
言語間の伝達難易度を同定する可能性を探るために, 微調整xlm-rの重みを解析した。
GPT-4はゼロショット設定でも微調整されたXLM-Rに匹敵する性能を示した。
言語間およびマルチタスク学習実験は、意味的タスクとは異なり、言語内トレーニングデータが受容可能性判断に不可欠であることを示す。
層別調査の結果, xlm-rの上層層は多言語アクセシビリティ判断のタスク固有だが言語非依存領域となった。
また,言語間の言語間移動の困難さを示す指標として,競合重みの概念も導入する。
私たちのデータはhttps://github.com/sjtu-compling/melaで入手できます。
関連論文リスト
- How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - What Linguistic Features and Languages are Important in LLM Translation? [4.888605304379589]
7BのLlama2モデルは、これまでに見たすべての言語に対して10 BLEUスコアを超える。
構文的類似性は、翻訳品質を決定する上で、必ずしも主要な言語要因ではない。
一部の言語は、英語よりも訓練データが少ないにもかかわらず、英語に匹敵する強い相関関係を示している。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z) - Multilingual Large Language Models Are Not (Yet) Code-Switchers [41.47534626749588]
大規模言語モデル(LLM)は、最近、幅広いタスクにおいて優れた機能を示している。
発話の中で言語を交互に行う習慣は、いまだにほとんど受け継がれていない。
LLMの現在の「多言語主義」は、本質的にはコードスイッチングテキストの習熟度を示唆していない、と我々は主張する。
論文 参考訳(メタデータ) (2023-05-23T16:50:48Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - A Primer on Pretrained Multilingual Language Models [18.943173499882885]
MLLM(Multilingual Language Models)は、多数の言語に事前学習の能力をもたらすための実行可能な選択肢として登場した。
本報告では,MLLMに関する研究分野について概説する。
論文 参考訳(メタデータ) (2021-07-01T18:01:46Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。