論文の概要: On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model
- arxiv url: http://arxiv.org/abs/2311.07820v1
- Date: Tue, 14 Nov 2023 00:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 15:55:24.827308
- Title: On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model
- Title(参考訳): デコーダ型多言語モデルにおける言語間即興調律の分析について
- Authors: Nohil Park, Joonsuk Park, Kang Min Yoo, Sungroh Yoon
- Abstract要約: 多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 49.81429697921861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An exciting advancement in the field of multilingual models is the emergence
of autoregressive models with zero- and few-shot capabilities, a phenomenon
widely reported in large-scale language models. To further improve model
adaptation to cross-lingual tasks, another trend is to further fine-tune the
language models with either full fine-tuning or parameter-efficient tuning.
However, the interaction between parameter-efficient fine-tuning (PEFT) and
cross-lingual tasks in multilingual autoregressive models has yet to be
studied. Specifically, we lack an understanding of the role of linguistic
distributions in multilingual models in the effectiveness of token-based prompt
tuning. To address this question, we conduct experiments comparing prompt
tuning and fine-tuning on the decoder-based multilingual model, XGLM, with four
cross-lingual tasks (XNLI, PAWS-X, POS, NER). According to our study, prompt
tuning achieves on par or better performance over fine-tuning across all
languages while updating at most 0.13\% of the model parameters. Moreover, we
empirically show that prompt tuning is more effective in enhancing the
performance of low-resource languages than fine-tuning. Our further analysis
shows that the phenomenon is related to the tokenization scheme of the
multilingual model.
- Abstract(参考訳): 多言語モデルの分野でのエキサイティングな進歩は、大規模言語モデルで広く報告されているゼロショットと少数ショット機能を持つ自己回帰モデルの出現である。
クロスリンガルタスクへのモデル適応をさらに改善するために、言語モデルを完全な微調整またはパラメータ効率のチューニングで微調整するトレンドもある。
しかし,多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用についてはまだ研究されていない。
具体的には,トークンに基づくプロンプトチューニングの有効性において,多言語モデルにおける言語分布の役割の理解が欠如している。
そこで本研究では,デコーダをベースとした多言語モデルであるXGLMを4つの言語間タスク(XNLI, PAWS-X, POS, NER)で即時チューニングと微調整を比較する実験を行った。
本研究は, モデルパラメータの0.13\%を更新しながら, 全言語をまたいだ微調整よりも高い性能を達成することを目的とした。
さらに, 高速チューニングは, 微調整よりも低リソース言語の性能向上に有効であることを示す。
さらに,この現象は多言語モデルのトークン化スキームと関連していることを示す。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models [7.321459642283822]
ファインチューニングは、膨大なリソースと計算を必要とせずに、言語モデルの性能を向上させることができる。
LLama-2-7B モデルと Mistral-7B モデルを2つの合成多言語命令チューニングデータセット上で微調整し、モデル性能に与える影響を判定する。
小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
論文 参考訳(メタデータ) (2024-01-15T11:06:43Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual
Understanding With Multilingual Language Models [95.32691891392903]
本稿では,プロンプトチューニングを用いた様々なNLUタスクの言語間評価を行い,それを微調整と比較する。
その結果, アクシデントチューニングは, データセット間の微調整よりもはるかに優れた言語間移動を実現することがわかった。
論文 参考訳(メタデータ) (2022-10-22T05:48:02Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Evaluating Cross-Lingual Transfer Learning Approaches in Multilingual
Conversational Agent Models [1.52292571922932]
自然言語理解(NLU)モデルのための汎用多言語モデルフレームワークを提案する。
これらの多言語モデルが,言語固有のテストデータにまたがる単言語モデルと比較して,同等あるいは優れた性能に到達できることを示す。
論文 参考訳(メタデータ) (2020-12-07T17:14:52Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。