論文の概要: BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer
- arxiv url: http://arxiv.org/abs/2305.14857v1
- Date: Wed, 24 May 2023 08:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:21:17.893617
- Title: BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer
- Title(参考訳): BUFFET: 言語間移動のための大規模言語モデルのベンチマーク
- Authors: Akari Asai, Sneha Kudugunta, Xinyan Velocity Yu, Terra Blevins, Hila
Gonen, Machel Reid, Yulia Tsvetkov, Sebastian Ruder, Hannaneh Hajishirzi
- Abstract要約: 本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
- 参考スコア(独自算出の注目度): 81.5984433881309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable advancements in few-shot generalization in natural
language processing, most models are developed and evaluated primarily in
English. To facilitate research on few-shot cross-lingual transfer, we
introduce a new benchmark, called BUFFET, which unifies 15 diverse tasks across
54 languages in a sequence-to-sequence format and provides a fixed set of
few-shot examples and instructions. BUFFET is designed to establish a rigorous
and equitable evaluation framework for few-shot cross-lingual transfer across a
broad range of tasks and languages. Using BUFFET, we perform thorough
evaluations of state-of-the-art multilingual large language models with
different transfer methods, namely in-context learning and fine-tuning. Our
findings reveal significant room for improvement in few-shot in-context
cross-lingual transfer. In particular, ChatGPT with in-context learning often
performs worse than much smaller mT5-base models fine-tuned on English task
data and few-shot in-language examples. Our analysis suggests various avenues
for future research in few-shot cross-lingual transfer, such as improved
pretraining, understanding, and future evaluations.
- Abstract(参考訳): 自然言語処理における数少ない一般化の進歩にもかかわらず、ほとんどのモデルは主に英語で開発され評価されている。
このベンチマークでは、54言語にまたがる15種類のタスクをシーケンス・ツー・シーケンス形式で統一し、いくつかの例と命令の固定セットを提供する。
BUFFETは、広範囲のタスクや言語を横断する数ショットの言語間転送のための厳密で公平な評価フレームワークを確立するように設計されている。
BUFFETを用いて,テキスト内学習と微調整の異なる多言語多言語大言語モデルの徹底的な評価を行う。
コンテクスト内言語間移動における改善の余地は極めて大きい。
特に、文脈内学習のChatGPTは、英語のタスクデータと少数ショットのインランゲージの例に基づいて微調整された、はるかに小さなmT5ベースモデルよりも性能が劣ることが多い。
本研究は,前訓練の改善,理解,今後の評価など,多言語間トランスファーにおける今後の研究への様々な道筋を示唆する。
関連論文リスト
- Is Prompt-Based Finetuning Always Better than Vanilla Finetuning?
Insights from Cross-Lingual Language Understanding [0.30586855806896046]
本稿では, Prompt-based Finetuning の言語間機能を調べるために, ProFiT パイプラインを提案する。
本研究は,言語間言語理解におけるアクシデントベースファインタニングの有効性と汎用性を明らかにするものである。
論文 参考訳(メタデータ) (2023-07-15T20:33:33Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.360667403003745]
ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。
人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。
ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
論文 参考訳(メタデータ) (2021-06-30T16:05:57Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。