論文の概要: Statement-Tuning Enables Efficient Cross-lingual Generalization in Encoder-only Models
- arxiv url: http://arxiv.org/abs/2506.01592v1
- Date: Mon, 02 Jun 2025 12:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.745736
- Title: Statement-Tuning Enables Efficient Cross-lingual Generalization in Encoder-only Models
- Title(参考訳): エンコーダのみのモデルにおける効率的な言語間一般化を可能にするステートメントチューニング
- Authors: Ahmed Elshabrawy, Thanh-Nhi Nguyen, Yeeun Kang, Lihan Feng, Annant Jain, Faadil Abdullah Shaikh, Jonibek Mansurov, Mohamed Fazli Mohamed Imam, Jesus-German Ortiz-Barajas, Rendi Chevi, Alham Fikri Aji,
- Abstract要約: 大言語モデル(LLM)はゼロショットと少数ショットのタスクで優れているが、エンコーダのみのモデルで同様のパフォーマンスを達成することは困難である。
最近の研究はステートメントチューニングを用いてゼロショットの一般化に適応し、タスクを有限テンプレートに再構成する。
このアプローチを多言語NLPに拡張し、エンコーダがゼロショット言語間一般化を達成できるかどうかを探索する。
- 参考スコア(独自算出の注目度): 7.467951065154891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel in zero-shot and few-shot tasks, but achieving similar performance with encoder-only models like BERT and RoBERTa has been challenging due to their architecture. However, encoders offer advantages such as lower computational and memory costs. Recent work adapts them for zero-shot generalization using Statement Tuning, which reformulates tasks into finite templates. We extend this approach to multilingual NLP, exploring whether encoders can achieve zero-shot cross-lingual generalization and serve as efficient alternatives to memory-intensive LLMs for low-resource languages. Our results show that state-of-the-art encoder models generalize well across languages, rivaling multilingual LLMs while being more efficient. We also analyze multilingual Statement Tuning dataset design, efficiency gains, and language-specific generalization, contributing to more inclusive and resource-efficient NLP models. We release our code and models.
- Abstract(参考訳): LLM(Large Language Models)はゼロショットと少数ショットのタスクに優れていますが、BERTやRoBERTaのようなエンコーダのみのモデルで同様のパフォーマンスを実現しています。
しかし、エンコーダは計算コストやメモリコストの低減といった利点がある。
最近の研究はステートメントチューニングを用いてゼロショットの一般化に適応し、タスクを有限テンプレートに再構成する。
我々はこの手法を多言語NLPに拡張し、エンコーダがゼロショット言語間一般化を達成できるかどうかを探索し、低リソース言語におけるメモリ集約型LLMの効率的な代替手段として機能する。
以上の結果から,最先端エンコーダモデルは多言語 LLM に対抗し,より効率的であることを示す。
また、多言語ステートメントチューニングデータセットの設計、効率向上、言語固有の一般化も分析し、より包括的でリソース効率のよいNLPモデルに寄与する。
コードとモデルをリリースします。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Deriving Coding-Specific Sub-Models from LLMs using Resource-Efficient Pruning [4.762390044282733]
大規模言語モデル(LLM)は、様々な複雑なコード生成タスクにおいて、その例外的な性能を実証している。
このような要求を緩和するために、モデルプルーニング技術は、パラメータが著しく少ないよりコンパクトなモデルを作成するために使用される。
本研究では,非構造化プルーニングによる符号化特化サブモデルの効率的な導出について検討する。
論文 参考訳(メタデータ) (2025-01-09T14:00:01Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Can General-Purpose Large Language Models Generalize to English-Thai Machine Translation ? [2.1969983462375318]
大規模言語モデル(LLM)は、一般的なタスクではうまく機能するが、低リソースおよび低計算環境での一般化に苦慮する。
本研究は,英語-タイ語機械翻訳とコードスイッチングデータセット上で,様々なLLMと特殊翻訳モデルをテストすることにより,この制限を検証した。
論文 参考訳(メタデータ) (2024-10-22T16:26:03Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。