Fugu-MT 論文翻訳(概要): mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models

論文の概要: mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models

arxiv url: http://arxiv.org/abs/2305.13684v2
Date: Mon, 29 Jan 2024 09:03:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 22:43:30.990251
Title: mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models
Title（参考訳）: mplm-sim:多言語事前学習言語モデルにおける言語間類似性と伝達の改善
Authors: Peiqin Lin, Chengzhi Hu, Zheyu Zhang, Andr\'e F. T. Martins, Hinrich Sch\"utze
Abstract要約: マルチ並列コーパスを用いてmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。本研究は,mPLM-Simが,レキシコ,系譜系,地理的スプラックバンドなどの言語類似性尺度と適度に高い相関を示すことを示す。さらに,mPLMSimが低レベル構文タスクと高レベル意味タスクの両方で実験を行うことで,ゼロショットの言語間移動に有効であるかどうかについても検討する。
参考スコア（独自算出の注目度）: 15.1107240354273
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent multilingual pretrained language models (mPLMs) have been shown to encode strong language-specific signals, which are not explicitly provided during pretraining. It remains an open question whether it is feasible to employ mPLMs to measure language similarity, and subsequently use the similarity results to select source languages for boosting cross-lingual transfer. To investigate this, we propose mPLMSim, a language similarity measure that induces the similarities across languages from mPLMs using multi-parallel corpora. Our study shows that mPLM-Sim exhibits moderately high correlations with linguistic similarity measures, such as lexicostatistics, genealogical language family, and geographical sprachbund. We also conduct a case study on languages with low correlation and observe that mPLM-Sim yields more accurate similarity results. Additionally, we find that similarity results vary across different mPLMs and different layers within an mPLM. We further investigate whether mPLMSim is effective for zero-shot cross-lingual transfer by conducting experiments on both low-level syntactic tasks and high-level semantic tasks. The experimental results demonstrate that mPLM-Sim is capable of selecting better source languages than linguistic measures, resulting in a 1%-2% improvement in zero-shot cross-lingual transfer performance.
Abstract（参考訳）: 近年の多言語事前訓練言語モデル (mPLM) は、事前訓練中に明示的に提供されない強い言語固有の信号を符号化することが示されている。 mplmを使用して言語の類似度を測定し、その後、類似度結果を使用して言語間転送を促進するためのソース言語を選択することは可能かどうか、まだ疑問の余地はない。そこで本研究では,マルチ並列コーパスを用いたmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。本研究により,mplm-simは,語彙統計学,系譜学的言語族,地理的散布など,言語類似度尺度と適度に高い相関を示した。また、相関が低い言語についてもケーススタディを行い、mPLM-Simがより正確な類似性結果をもたらすことを観察する。さらに,mPLM内の異なる層と異なる層に類似性が認められた。さらに,低レベル構文タスクと高レベル意味タスクの両方について実験を行い,ゼロショット言語間伝達にmplmsimが有効であるかどうかについて検討した。実験の結果,mPLM-Simは言語指標よりも優れたソース言語を選択することができ,ゼロショット言語間転送性能は1%-2%向上した。

関連論文リスト

MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文参考訳（メタデータ） (2025-06-24T09:53:00Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-15T06:35:27Z)
Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。 1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文参考訳（メタデータ） (2025-02-17T06:56:33Z)
Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文参考訳（メタデータ） (2024-10-10T11:23:18Z)
Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis [19.37853222555255]
大規模言語モデル(LLM)の探索技術は主に英語に焦点を合わせており、世界の言語の大部分を見下ろしている。複数のオープンソースのLCMモデルで実験を行い、探索精度、層間の傾向、および複数の言語に対する探索ベクトル間の類似性を解析した。
論文参考訳（メタデータ） (2024-09-22T14:14:05Z)
In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation [20.704153242284114]
機械翻訳(MT)は、テキスト内翻訳の例から恩恵を受けることが示されているタスクである。サンプルの選択方法に関する体系的な研究は発表されておらず、類似性に基づく選択の有用性について混合の結果が報告されている。文の埋め込み類似性は,特に低リソース言語方向においてMTを改善することができる。
論文参考訳（メタデータ） (2024-08-01T09:07:32Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳（メタデータ） (2024-04-17T16:53:16Z)
Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文参考訳（メタデータ） (2024-04-12T14:19:16Z)
Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-03-29T08:47:15Z)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (2024-02-26T09:36:05Z)
Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文参考訳（メタデータ） (2023-08-09T13:32:06Z)
How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。 MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文参考訳（メタデータ） (2023-05-22T17:47:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。