論文の概要: Why Low-Resource NLP Needs More Than Cross-Lingual Transfer: Lessons Learned from Luxembourgish
- arxiv url: http://arxiv.org/abs/2605.10714v1
- Date: Mon, 11 May 2026 15:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.936292
- Title: Why Low-Resource NLP Needs More Than Cross-Lingual Transfer: Lessons Learned from Luxembourgish
- Title(参考訳): 低リソースのNLPが言語間移動以上のものを必要とする理由:ルクセンブルクから学んだこと
- Authors: Fred Philippy, Siwen Guo, Jacques Klein, Tegawendé F. Bissyandé,
- Abstract要約: 言語間移動は、自然言語処理技術を低リソース言語に拡張するための中心的なパラダイムとなっている。
言語間移動と言語固有の取り組みの基本的な相互依存を観察する。
言語間の移動と言語固有の取り組みは、競合する代替案と見なすべきではない、と我々は主張する。
- 参考スコア(独自算出の注目度): 11.937949915786719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual transfer has become a central paradigm for extending natural language processing (NLP) technologies to low-resource languages. By leveraging supervision from high-resource languages, multilingual language models can achieve strong task performance with little or no labeled target-language data. However, it remains unclear to what extent cross-lingual transfer can substitute for language-specific efforts. In this paper, we synthesize prior research findings and data collection results on Luxembourgish, which, despite its typological proximity to high-resource languages and its presence in a multilingual context, remains insufficiently represented in modern NLP technologies. Across findings, we observe a fundamental interdependence between cross-lingual transfer and language-specific efforts. Cross-lingual transfer can substantially improve target-language performance, but its success depends critically on the availability of sufficiently high-quality, task-aligned target-language data. At the same time, such resources, particularly in low-resource settings, are typically too limited in scale to drive strong performance on their own. Instead, such resources reach their full potential only when leveraged within a cross-lingual framework. We therefore argue that cross-lingual transfer and language-specific efforts should not be viewed as competing alternatives. Instead, they function as complementary components of a sustainable low-resource NLP pipeline. Based on these insights, we provide practical guidelines for integrating and balancing cross-lingual transfer with language-specific development in sustainable low-resource NLP pipelines.
- Abstract(参考訳): 言語間移動は、自然言語処理(NLP)技術を低リソース言語に拡張する中心的なパラダイムとなっている。
高リソース言語からの監視を活用することで、多言語言語モデルは、ほとんどまたは全くラベル付けされていないターゲット言語データを用いて、強力なタスクパフォーマンスを達成することができる。
しかし、言語間移動が言語固有の取り組みにどの程度代えるかは、まだ不明である。
本稿では,Luxembourgishに関する先行研究結果とデータ収集結果を合成する。これは,高資源言語に類型的に近づき,多言語的文脈での存在にもかかわらず,現代のNLP技術では不十分なままである。
本研究は,言語間移動と言語固有の取り組みの相互依存性を観察する。
言語間移動はターゲット言語のパフォーマンスを大幅に向上させるが、その成功は十分に高品質でタスク対応のターゲット言語データの利用に大きく依存する。
同時に、特に低リソース環境では、そのようなリソースは、通常、大規模に制限されすぎて、それ自体で強力なパフォーマンスを実現しています。
代わりに、そのようなリソースは言語間フレームワーク内でのみ活用される。
したがって、言語間移動と言語固有の取り組みは競合する代替案とはみなしてはならない。
代わりに、持続可能な低リソースのNLPパイプラインの補完的なコンポーネントとして機能する。
これらの知見に基づき、持続可能な低リソースNLPパイプラインにおいて、言語間移動と言語固有の開発を統合するための実践的ガイドラインを提供する。
関連論文リスト
- BhashaSetu: Cross-Lingual Knowledge Transfer from High-Resource to Extreme Low-Resource Languages [7.883895869179052]
言語間の知識伝達はこの課題に対処するための有望なアプローチとして現れている。
本稿では,2つのベースラインとともに,言語間知識伝達のための新しい手法を提案する。
実験結果から,GNNに基づくアプローチは,既存の多言語・多言語ベースライン法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2026-02-05T12:33:30Z) - Bridging Language Gaps: Enhancing Few-Shot Language Adaptation [32.157041759856]
言語資源の格差は、多言語NLPにおける課題となっている。
高リソース言語は広範なデータから恩恵を受ける一方、低リソース言語は効果的なトレーニングに十分なデータを持っていない。
我々のContrastive Language Alignment with Prompting (CoLAP) 法は、コントラスト学習と言語間表現を統合することで、このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-26T22:49:17Z) - Breaking Physical and Linguistic Borders: Multilingual Federated Prompt Tuning for Low-Resource Languages [27.63253872229416]
多言語シナリオのためのフェデレート・プロンプト・チューニング・パラダイムを提案する。
提案手法は精度が6.9%向上し,データ効率が向上した。
これらの知見は,社会平等を推進し,言語多様性を擁護するアプローチの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-07-02T05:23:20Z) - Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP [13.662528492286528]
本稿では,この課題に対処し,より効率的な言語適応を実現するために,新たな言語間語彙移動戦略であるトランストークン化を提案する。
提案手法は,ソースコードからの意味論的に類似したトークン埋め込みの重み付け平均を用いて,ターゲット言語のトークン埋め込みを初期化することにより,高リソースのモノリンガルLLMを未知のターゲット言語に適応することに焦点を当てる。
複数のスワップ可能な言語モデリングヘッドと埋め込みテーブルを備えたモデルであるHydra LLMを導入し、トランストークン化戦略の能力をさらに拡張した。
論文 参考訳(メタデータ) (2024-08-08T08:37:28Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。