論文の概要: Can Embedding Similarity Predict Cross-Lingual Transfer? A Systematic Study on African Languages
- arxiv url: http://arxiv.org/abs/2601.03168v1
- Date: Tue, 06 Jan 2026 16:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.029077
- Title: Can Embedding Similarity Predict Cross-Lingual Transfer? A Systematic Study on African Languages
- Title(参考訳): 類似性の埋め込みは言語間移動を予測するか? : アフリカ言語に関する体系的研究
- Authors: Tewodros Kederalah Idris, Prasenjit Mitra, Roald Eiselen,
- Abstract要約: 低リソースのアフリカ言語のためのNLPシステムを構築するためには、言語間移動が不可欠である。
816回の移動実験において,5つの埋め込み類似度指標を系統的に評価した。
その結果,コサインギャップと検索に基づく指標が転送成功を確実に予測できることが判明した。
- 参考スコア(独自算出の注目度): 12.074798555934855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual transfer is essential for building NLP systems for low-resource African languages, but practitioners lack reliable methods for selecting source languages. We systematically evaluate five embedding similarity metrics across 816 transfer experiments spanning three NLP tasks, three African-centric multilingual models, and 12 languages from four language families. We find that cosine gap and retrieval-based metrics (P@1, CSLS) reliably predict transfer success ($ρ= 0.4-0.6$), while CKA shows negligible predictive power ($ρ\approx 0.1$). Critically, correlation signs reverse when pooling across models (Simpson's Paradox), so practitioners must validate per-model. Embedding metrics achieve comparable predictive power to URIEL linguistic typology. Our results provide concrete guidance for source language selection and highlight the importance of model-specific analysis.
- Abstract(参考訳): 低リソースのアフリカ言語のためのNLPシステムを構築するには言語間移動が不可欠であるが、実践者はソース言語を選択するための信頼性の高い手法を欠いている。
我々は,3つのNLPタスク,3つのアフリカ中心多言語モデル,および4つの言語ファミリーの12言語にまたがる816のトランスファー実験において,5つの埋め込み類似度指標を体系的に評価した。
CKAは無視可能な予測力(ρ\approx 0.1$)を示すのに対し、コサインギャップと検索ベースのメトリクス(P@1, CSLS)は確実に転送成功を予測する(ρ= 0.4-0.6$)。
批判的に、モデルにまたがるプール(シンプソンのパラドックス)では相関の兆候が逆になるため、実践者はモデルごとの検証をしなければならない。
埋め込みメトリクスは、URIEL言語型学に匹敵する予測力を達成する。
本研究は,ソース言語選択のための具体的なガイダンスを提供し,モデル固有解析の重要性を強調した。
関連論文リスト
- Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文 参考訳(メタデータ) (2025-02-17T06:56:33Z) - Analyzing Language Bias Between French and English in Conventional Multilingual Sentiment Analysis Models [0.0]
フランス語と英語の50~50のデータセットを考えると、言語バイアスが存在するかどうかを判断することを目指している。
Support Vector Machine (SVM) と Naive Bayes モデルを3つのバランスの取れたデータセットに適用することにより、多言語感情分類における潜在的なバイアスを明らかにする。
論文 参考訳(メタデータ) (2024-05-07T17:46:36Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models [57.225289079198454]
マルチ並列コーパスを用いてmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。
本研究は,mPLM-Simが,レキシコ,系譜系,地理的スプラックバンドなどの言語類似性尺度と適度に高い相関を示すことを示す。
さらに,mPLMSimが低レベル構文タスクと高レベル意味タスクの両方で実験を行うことで,ゼロショットの言語間移動に有効であるかどうかについても検討する。
論文 参考訳(メタデータ) (2023-05-23T04:44:26Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - Boosting Cross-Lingual Transfer via Self-Learning with Uncertainty
Estimation [34.97086123805344]
最近の多言語事前訓練型言語モデルは、目覚ましいゼロショット性能を実現している。
対象言語のラベルのないデータをさらに活用する自己学習フレームワークを提案する。
我々は,NER(Nond Entity Recognition)とNLI(Natural Language Inference)の2つの言語間タスクについて,40言語を網羅した不確実性で評価した。
論文 参考訳(メタデータ) (2021-09-01T05:26:46Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。