論文の概要: Bridging Language Gaps: Enhancing Few-Shot Language Adaptation
- arxiv url: http://arxiv.org/abs/2508.19464v1
- Date: Tue, 26 Aug 2025 22:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.43963
- Title: Bridging Language Gaps: Enhancing Few-Shot Language Adaptation
- Title(参考訳): ブリッジング言語ギャップ: わずかなショット言語適応の強化
- Authors: Philipp Borchert, Jochen De Weerdt, Marie-Francine Moens,
- Abstract要約: 言語資源の格差は、多言語NLPにおける課題となっている。
高リソース言語は広範なデータから恩恵を受ける一方、低リソース言語は効果的なトレーニングに十分なデータを持っていない。
我々のContrastive Language Alignment with Prompting (CoLAP) 法は、コントラスト学習と言語間表現を統合することで、このギャップに対処する。
- 参考スコア(独自算出の注目度): 32.157041759856
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The disparity in language resources poses a challenge in multilingual NLP, with high-resource languages benefiting from extensive data, while low-resource languages lack sufficient data for effective training. Our Contrastive Language Alignment with Prompting (CoLAP) method addresses this gap by integrating contrastive learning with cross-lingual representations, facilitating task-specific knowledge transfer from high-resource to lower-resource languages. The primary advantage of our approach is its data efficiency, enabling rapid adaptation to new languages and reducing the need for large labeled datasets. We conduct experiments with multilingual encoder-only and decoder-only language models on natural language understanding tasks, including natural language inference and relation extraction, evaluating performance across both high- and low-resource languages. Our results demonstrate that CoLAP outperforms few-shot cross-lingual transfer baselines and in-context learning, even with limited available data. This effectively narrows the cross-lingual performance gap, contributing to the development of more efficient multilingual NLP techniques.
- Abstract(参考訳): 言語リソースの格差は、多言語NLPにおいて課題となり、低リソース言語は効果的なトレーニングに十分なデータを持っていないのに対して、高リソース言語は広範なデータから恩恵を受けている。
我々のContrastive Language Alignment with Prompting (CoLAP)メソッドはこのギャップに対処し、コントラスト学習と言語間表現を統合し、タスク固有の知識を高リソース言語から低リソース言語へ移行することを容易にする。
このアプローチの主な利点は、そのデータ効率であり、新しい言語への迅速な適応を可能にし、大きなラベル付きデータセットの必要性を減らすことができる。
我々は,多言語エンコーダのみおよびデコーダのみの言語モデルを用いて,自然言語の推論や関係抽出などの自然言語理解タスクについて実験を行い,高次言語と低次言語の両方における性能評価を行った。
以上の結果から,CoLAPは限られたデータであっても,数ショットの言語間移動ベースラインやテキスト内学習より優れることが示された。
これにより、言語間性能ギャップが効果的に狭まり、より効率的な多言語NLP技術の開発に寄与する。
関連論文リスト
- Breaking Physical and Linguistic Borders: Multilingual Federated Prompt Tuning for Low-Resource Languages [27.63253872229416]
多言語シナリオのためのフェデレート・プロンプト・チューニング・パラダイムを提案する。
提案手法は精度が6.9%向上し,データ効率が向上した。
これらの知見は,社会平等を推進し,言語多様性を擁護するアプローチの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-07-02T05:23:20Z) - Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。
単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。
そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文 参考訳(メタデータ) (2025-06-30T22:26:36Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。
しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。
我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文 参考訳(メタデータ) (2024-04-12T14:19:16Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Cross-lingual Transfer in Programming Languages: An Extensive Empirical Study [5.350495525141013]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて最先端のパフォーマンスを達成した。
RustやSwiftといった重要な言語は、公開コードに制限があるため、低リソースのままである。
対象とタスクに対して最適なソース言語を推定する性能予測モデルを構築した。
論文 参考訳(メタデータ) (2023-10-25T19:04:33Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。