論文の概要: DeFTX: Denoised Sparse Fine-Tuning for Zero-Shot Cross-Lingual Transfer
- arxiv url: http://arxiv.org/abs/2505.15090v1
- Date: Wed, 21 May 2025 04:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.862844
- Title: DeFTX: Denoised Sparse Fine-Tuning for Zero-Shot Cross-Lingual Transfer
- Title(参考訳): DeFTX:ゼロショットクロスリンガルトランスファーのための分離スパース調整
- Authors: Sona Elza Simon, Preethi Jyothi,
- Abstract要約: DeFT-X(DeFT-X)は,事前学習したモデルの重み行列を大まかに刈り取る新しい構成可能なSFT手法である。
感情分類(NusaX)と自然言語推論(AmericasNLI)のための多種多様な低リソース言語上でDeFT-Xを評価する。
- 参考スコア(独自算出の注目度): 26.0360791797671
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective cross-lingual transfer remains a critical challenge in scaling the benefits of large language models from high-resource to low-resource languages. Towards this goal, prior studies have explored many approaches to combine task knowledge from task-specific data in a (high-resource) source language and language knowledge from unlabeled text in a (low-resource) target language. One notable approach proposed composable sparse fine-tuning (SFT) for cross-lingual transfer that learns task-specific and language-specific sparse masks to select a subset of the pretrained model's parameters that are further fine-tuned. These sparse fine-tuned vectors (SFTs) are subsequently composed with the pretrained model to facilitate zero-shot cross-lingual transfer to a task in a target language, using only task-specific data from a source language. These sparse masks for SFTs were identified using a simple magnitude-based pruning. In our work, we introduce DeFT-X, a novel composable SFT approach that denoises the weight matrices of a pretrained model before magnitude pruning using singular value decomposition, thus yielding more robust SFTs. We evaluate DeFT-X on a diverse set of extremely low-resource languages for sentiment classification (NusaX) and natural language inference (AmericasNLI) and demonstrate that it performs at par or outperforms SFT and other prominent cross-lingual transfer baselines.
- Abstract(参考訳): 大規模な言語モデルの利点を高リソース言語から低リソース言語にスケールアップする上で、効果的な言語間移行は依然として重要な課題である。
この目標に向けて、先行研究は、タスク固有データから(高リソース)ソース言語へのタスク知識と(低リソース)ターゲット言語における未ラベルテキストからの言語知識を組み合わせるための多くのアプローチを模索してきた。
1つの注目すべきアプローチは、タスク固有のスパースマスクと言語固有のスパースマスクを学習し、さらに微調整された事前訓練されたモデルのパラメータのサブセットを選択する、言語間移動のためのコンポーザブルスパース微調整(SFT)である。
これらのスパース細調整ベクター(SFT)は、その後、訓練済みモデルで構成され、ソース言語からのタスク固有のデータのみを使用して、ターゲット言語のタスクへのゼロショットのクロスランガル転送を容易にする。
SFT用スパースマスクは, 単純等級プルーニングを用いて同定した。
本研究では, 特異値分解法を用いて, 事前学習したモデルの重み行列を分解し, より堅牢なSFTを生成する新しい構成可能なSFTアプローチであるDeFT-Xを紹介する。
我々は、感情分類(NusaX)と自然言語推論(AmericasNLI)のための多種多様な低リソース言語を用いてDeFT-Xを評価し、それがSFTや他の顕著な言語間移動ベースラインより優れているか優れていることを示す。
関連論文リスト
- Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - Parameter-Efficient Cross-lingual Transfer of Vision and Language Models
via Translation-based Alignment [31.885608173448368]
CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。
異なる言語間のパフォーマンスの格差は、不均一なリソース可用性のために観測されている。
翻訳に基づくアライメント手法を用いて,多言語差を緩和するパラメータ効率のよい多言語間移動学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-02T14:09:02Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual
Transfer with Multilingual Transformers [62.637055980148816]
言語モデリングの目的によって事前訓練された多言語トランスフォーマーは、NLPの事実上のデフォルト転送パラダイムとなっている。
膨大な多言語変換器による言語間変換は,リソースリーンシナリオや遠方言語では著しく効果が低いことを示す。
論文 参考訳(メタデータ) (2020-05-01T22:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。