論文の概要: Enhancing Small Language Models for Cross-Lingual Generalized Zero-Shot Classification with Soft Prompt Tuning
- arxiv url: http://arxiv.org/abs/2503.19469v1
- Date: Tue, 25 Mar 2025 09:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:18.659265
- Title: Enhancing Small Language Models for Cross-Lingual Generalized Zero-Shot Classification with Soft Prompt Tuning
- Title(参考訳): ソフトプロンプトチューニングを用いた言語横断型ゼロショット分類のための小言語モデルの強化
- Authors: Fred Philippy, Siwen Guo, Cedric Lothritz, Jacques Klein, Tegawendé F. Bissyandé,
- Abstract要約: ゼロショット分類(ZSC)は、モデルがトレーニング中に見えないカテゴリに分類できるようにするために欠かせないものとなっている。
我々は,言語間ZSCを強化するソフトプロンプトを訓練するための軽量でデータ効率のよいアプローチであるRoSPromptを紹介する。
我々は,106言語をカバーする多言語 PLM に対するアプローチを評価し,強い言語間転送性能と堅牢な一般化能力を示す。
- 参考スコア(独自算出の注目度): 8.408016670697068
- License:
- Abstract: In NLP, Zero-Shot Classification (ZSC) has become essential for enabling models to classify text into categories unseen during training, particularly in low-resource languages and domains where labeled data is scarce. While pretrained language models (PLMs) have shown promise in ZSC, they often rely on large training datasets or external knowledge, limiting their applicability in multilingual and low-resource scenarios. Recent approaches leveraging natural language prompts reduce the dependence on large training datasets but struggle to effectively incorporate available labeled data from related classification tasks, especially when these datasets originate from different languages or distributions. Moreover, existing prompt-based methods typically rely on manually crafted prompts in a specific language, limiting their adaptability and effectiveness in cross-lingual settings. To address these challenges, we introduce RoSPrompt, a lightweight and data-efficient approach for training soft prompts that enhance cross-lingual ZSC while ensuring robust generalization across data distribution shifts. RoSPrompt is designed for small multilingual PLMs, enabling them to leverage high-resource languages to improve performance in low-resource settings without requiring extensive fine-tuning or high computational costs. We evaluate our approach on multiple multilingual PLMs across datasets covering 106 languages, demonstrating strong cross-lingual transfer performance and robust generalization capabilities over unseen classes.
- Abstract(参考訳): NLPでは、ZSC(Zero-Shot Classification)は、トレーニング中に見えないカテゴリ、特にラベル付きデータが不足している低リソース言語やドメインに、モデルがテキストを分類できるようにするために欠かせないものとなっている。
事前トレーニングされた言語モデル(PLM)はZSCにおいて有望であることを示しているが、大規模なトレーニングデータセットや外部知識に依存し、多言語および低リソースのシナリオにおける適用性を制限していることが多い。
自然言語を活用する最近のアプローチは、大規模なトレーニングデータセットへの依存を減らすが、特にこれらのデータセットが異なる言語や分布に由来する場合、関連する分類タスクから利用可能なラベル付きデータを効果的に組み込むのに苦労する。
さらに、既存のプロンプトベースのメソッドは、通常、特定の言語の手作業によるプロンプトに依存し、言語間設定における適応性と有効性を制限する。
これらの課題に対処するために,我々は,データ分散シフト間の堅牢な一般化を確保しつつ,言語間ZSCを強化するソフトプロンプトをトレーニングするための,軽量でデータ効率のよいアプローチであるRoSPromptを紹介した。
RoSPromptは小規模な多言語PLM向けに設計されており、大規模な微調整や高い計算コストを必要とせず、高リソース言語を活用して低リソース環境での性能を向上させることができる。
我々は106言語をカバーするデータセットにまたがる多言語 PLM に対するアプローチを検証し,言語間移動性能と非可視クラスに対する頑健な一般化能力を実証した。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。
しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。
我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文 参考訳(メタデータ) (2024-04-12T14:19:16Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。