論文の概要: BhashaSetu: Cross-Lingual Knowledge Transfer from High-Resource to Extreme Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2602.05599v1
- Date: Thu, 05 Feb 2026 12:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.925094
- Title: BhashaSetu: Cross-Lingual Knowledge Transfer from High-Resource to Extreme Low-Resource Languages
- Title(参考訳): BhashaSetu: 高リソースから極低リソース言語への言語間知識移行
- Authors: Subhadip Maji, Arnab Bhattacharya,
- Abstract要約: 言語間の知識伝達はこの課題に対処するための有望なアプローチとして現れている。
本稿では,2つのベースラインとともに,言語間知識伝達のための新しい手法を提案する。
実験結果から,GNNに基づくアプローチは,既存の多言語・多言語ベースライン法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 7.883895869179052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable advances in natural language processing, developing effective systems for low-resource languages remains a formidable challenge, with performances typically lagging far behind high-resource counterparts due to data scarcity and insufficient linguistic resources. Cross-lingual knowledge transfer has emerged as a promising approach to address this challenge by leveraging resources from high-resource languages. In this paper, we investigate methods for transferring linguistic knowledge from high-resource languages to low-resource languages, where the number of labeled training instances is in hundreds. We focus on sentence-level and word-level tasks. We introduce a novel method, GETR (Graph-Enhanced Token Representation) for cross-lingual knowledge transfer along with two adopted baselines (a) augmentation in hidden layers and (b) token embedding transfer through token translation. Experimental results demonstrate that our GNN-based approach significantly outperforms existing multilingual and cross-lingual baseline methods, achieving 13 percentage point improvements on truly low-resource languages (Mizo, Khasi) for POS tagging, and 20 and 27 percentage point improvements in macro-F1 on simulated low-resource languages (Marathi, Bangla, Malayalam) across sentiment classification and NER tasks respectively. We also present a detailed analysis of the transfer mechanisms and identify key factors that contribute to successful knowledge transfer in this linguistic context.
- Abstract(参考訳): 自然言語処理の顕著な進歩にもかかわらず、低リソース言語のための効果的なシステムの開発は依然として深刻な課題であり、データ不足と不十分な言語資源のために、パフォーマンスは高リソース言語よりもはるかに遅れている。
言語間の知識伝達は、高リソース言語からのリソースを活用することで、この問題に対処するための有望なアプローチとして現れています。
本稿では,高リソース言語から低リソース言語へ言語知識を伝達する手法について検討する。
我々は文レベルと単語レベルに焦点をあてる。
言語間知識伝達のための新しい方法GETR(Graph-Enhanced Token Representation)を2つの基本ラインとともに導入する。
(a)隠された層における増補
(b)トークン翻訳によるトークン埋め込み転送
実験の結果,本手法は既存の多言語・多言語間のベースライン手法よりも優れており,POSタグ付けにおける真の低リソース言語(Mizo,Khasi)の13パーセント,感情分類による低リソース言語(Marathi,Bangla,Marayalam)の20~27パーセントのマクロF1の改善を実現している。
また, 伝達機構の詳細な解析を行い, この言語的文脈における知識伝達の成功に寄与する重要な要因を同定する。
関連論文リスト
- Bridging Language Gaps: Enhancing Few-Shot Language Adaptation [32.157041759856]
言語資源の格差は、多言語NLPにおける課題となっている。
高リソース言語は広範なデータから恩恵を受ける一方、低リソース言語は効果的なトレーニングに十分なデータを持っていない。
我々のContrastive Language Alignment with Prompting (CoLAP) 法は、コントラスト学習と言語間表現を統合することで、このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-26T22:49:17Z) - Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages [8.612181075294327]
本手法は, クロスリンガルNERに有効な手法であることを示す。
本稿では,対象候補を抽出したソースエンティティとマッチングする新しい形式化されたプロジェクション手法を提案する。
これらの知見は、低リソース言語におけるクロスリンガルなエンティティ認識のためのモデルベース手法の代替として、プロジェクションベースのデータ転送の堅牢性を強調している。
論文 参考訳(メタデータ) (2025-01-30T21:00:47Z) - Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - MetaXL: Meta Representation Transformation for Low-resource
Cross-lingual Learning [91.5426763812547]
言語間移動学習は低リソース言語のための機能的NLPシステムを構築するための最も効果的な方法の1つである。
MetaXLは、メタラーニングベースのフレームワークで、表現を補助言語からターゲット言語にジャッジに変換することを学ぶ。
論文 参考訳(メタデータ) (2021-04-16T06:15:52Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。