論文の概要: UniBridge: A Unified Approach to Cross-Lingual Transfer Learning for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2406.09717v1
- Date: Fri, 14 Jun 2024 04:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 15:03:43.268602
- Title: UniBridge: A Unified Approach to Cross-Lingual Transfer Learning for Low-Resource Languages
- Title(参考訳): UniBridge: 低リソース言語のための言語間変換学習のための統一的なアプローチ
- Authors: Trinh Pham, Khoi M. Le, Luu Anh Tuan,
- Abstract要約: クロスリンガル・トランスファー・ラーニングの有効性を改善するための総合的なアプローチであるUniBridgeを紹介する。
本手法は,埋め込みの初期化と最適な語彙サイズという,言語モデルの2つの重要な要素に対処する。
多言語データセットを用いた実験により,いくつかの言語でF1スコアが大幅に改善された。
- 参考スコア(独自算出の注目度): 2.4510449184543925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce UniBridge (Cross-Lingual Transfer Learning with Optimized Embeddings and Vocabulary), a comprehensive approach developed to improve the effectiveness of Cross-Lingual Transfer Learning, particularly in languages with limited resources. Our approach tackles two essential elements of a language model: the initialization of embeddings and the optimal vocabulary size. Specifically, we propose a novel embedding initialization method that leverages both lexical and semantic alignment for a language. In addition, we present a method for systematically searching for the optimal vocabulary size, ensuring a balance between model complexity and linguistic coverage. Our experiments across multilingual datasets show that our approach greatly improves the F1-Score in several languages. UniBridge is a robust and adaptable solution for cross-lingual systems in various languages, highlighting the significance of initializing embeddings and choosing the right vocabulary size in cross-lingual environments.
- Abstract(参考訳): 本稿では,UniBridge(Cross-Lingual Transfer Learning with Optimized Embeddings and Vocabulary)を紹介する。
本手法は,埋め込みの初期化と最適な語彙サイズという,言語モデルの2つの重要な要素に対処する。
具体的には,言語に対する語彙と意味的アライメントを両立させる新しい埋め込み初期化手法を提案する。
さらに,最適な語彙サイズを体系的に探索し,モデルの複雑さと言語的カバレッジのバランスを確保する手法を提案する。
多言語データセットを用いた実験により,いくつかの言語でF1スコアが大幅に改善された。
UniBridgeは、様々な言語における言語間システムに対する堅牢で適応可能なソリューションであり、埋め込みを初期化し、言語間環境において適切な語彙サイズを選択することの重要性を強調している。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP [13.662528492286528]
本稿では,この課題に対処し,より効率的な言語適応を実現するために,新たな言語間語彙移動戦略であるトランストークン化を提案する。
提案手法は,ソースコードからの意味論的に類似したトークン埋め込みの重み付け平均を用いて,ターゲット言語のトークン埋め込みを初期化することにより,高リソースのモノリンガルLLMを未知のターゲット言語に適応することに焦点を当てる。
複数のスワップ可能な言語モデリングヘッドと埋め込みテーブルを備えたモデルであるHydra LLMを導入し、トランストークン化戦略の能力をさらに拡張した。
論文 参考訳(メタデータ) (2024-08-08T08:37:28Z) - An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models [31.231720803637085]
言語モデル(LM)は英語の自然言語処理タスクに優れるが、他のほとんどの言語では性能が低下している。
オリジナルのモデルのトークン化子の語彙範囲が限定されているため、新しい言語の表現が不十分になる。
制約付きWord2Vec (CW2V) は言語間埋め込みを必要としない。
論文 参考訳(メタデータ) (2024-07-08T11:38:49Z) - Embedding structure matters: Comparing methods to adapt multilingual
vocabularies to new languages [20.17308477850864]
事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。
本稿では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T04:27:18Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - End-to-End Slot Alignment and Recognition for Cross-Lingual NLU [9.399840807973545]
そこで本稿では,言語間移動のための目標スロットラベルの整列と予測を学習する,新しいエンドツーエンドモデルを提案する。
我々は,新たな多言語NLUコーパスであるMultiATIS++を導入し,多言語ATISコーパスを4つの言語ファミリーにまたがる9言語に拡張した。
その結果,本手法は,多くの言語で高速アライメントを用いた単純なラベルプロジェクション法よりも優れており,トレーニング時間の半分しか持たない,より複雑で最先端のプロジェクション法と競合する性能が得られた。
論文 参考訳(メタデータ) (2020-04-29T17:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。