Fugu-MT 論文翻訳(概要): LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation

論文の概要: LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation

arxiv url: http://arxiv.org/abs/2402.11485v2
Date: Thu, 6 Jun 2024 05:30:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 21:22:40.192140
Title: LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation
Title（参考訳）: LEIA:エンティティベースのデータ拡張による言語モデルにおける言語間知識伝達の実現
Authors: Ikuya Yamada, Ryokan Ri,
Abstract要約: 言語間で整列したウィキペディアのエンティティ名を利用する言語適応チューニング手法であるLEIAを紹介する。この方法は、ターゲット言語コーパスを英語のエンティティ名で拡張し、左から右への言語モデリングを用いてモデルを訓練することを含む。
参考スコア（独自算出の注目度）: 21.980770995466134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adapting English-based large language models (LLMs) to other languages has become increasingly popular due to the efficiency and potential of cross-lingual transfer. However, existing language adaptation methods often overlook the benefits of cross-lingual supervision. In this study, we introduce LEIA, a language adaptation tuning method that utilizes Wikipedia entity names aligned across languages. This method involves augmenting the target language corpus with English entity names and training the model using left-to-right language modeling. We assess LEIA on diverse question answering datasets using 7B-parameter LLMs, demonstrating significant performance gains across various non-English languages. The source code is available at https://github.com/studio-ousia/leia.
Abstract（参考訳）: 英語をベースとした大規模言語モデル(LLM)を他の言語に適応させることは、言語間移動の効率性と可能性から、ますます人気が高まっている。しかし、既存の言語適応手法はしばしば言語間監督の利点を見落としている。本研究では,言語間で一致したウィキペディアのエンティティ名を利用する言語適応チューニング手法であるLEIAを紹介する。この方法は、ターゲット言語コーパスを英語のエンティティ名で拡張し、左から右への言語モデリングを用いてモデルを訓練することを含む。 7Bパラメータ LLM を用いて多様な質問応答データセット上でLEIAを評価し,英語以外の言語で顕著な性能向上を示した。ソースコードはhttps://github.com/studio-ousia/leia.comで公開されている。

関連論文リスト

Language Steering for Multilingual In-Context Learning [10.932074928744568]
非英語での大規模言語モデルのパフォーマンスは、英語よりもかなり劣っている。トレーニング不要な言語ステアリングアプローチである言語ベクトルを提案する。テスト対象のタスクや言語にまたがるベースライン上でのマルチランガル・イン・コンテクスト学習における一貫した改善を示す。
論文参考訳（メタデータ） (2026-02-02T16:52:09Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-08-21T07:43:49Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
An Efficient Approach for Studying Cross-Lingual Transfer in Multilingual Language Models [26.72394783468532]
本稿では,他の対象言語に対するゼロショット性能における転送言語の影響を研究するためのテキスト効率の手法を提案する。以上の結果から,一部の言語,特に事前学習中に見つからない言語は,異なる対象言語に対して極めて有益あるいは有害である可能性が示唆された。
論文参考訳（メタデータ） (2024-03-29T09:52:18Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。 MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文参考訳（メタデータ） (2023-05-22T17:47:41Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
WECHSEL: Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models [3.6878069324996616]
WECHSELと呼ばれる手法を導入し、新しい言語に英語モデルを転送する。 We use WECHSEL to transfer GPT-2 and RoBERTa models to four other languages。
論文参考訳（メタデータ） (2021-12-13T12:26:02Z)
Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。 XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文参考訳（メタデータ） (2021-02-16T18:47:10Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。