論文の概要: Modality Matching Matters: Calibrating Language Distances for Cross-Lingual Transfer in URIEL+
- arxiv url: http://arxiv.org/abs/2510.19217v1
- Date: Wed, 22 Oct 2025 03:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.033728
- Title: Modality Matching Matters: Calibrating Language Distances for Cross-Lingual Transfer in URIEL+
- Title(参考訳): モダリティマッチングの課題:URIEL+における言語間移動のための言語距離の校正
- Authors: York Hay Ng, Aditya Khan, Xiang Lu, Matteo Salloum, Michael Zhou, Phuong H. Hoang, A. Seza Doğruöz, En-Shiun Annie Lee,
- Abstract要約: タイプマッチング言語距離のためのフレームワークを提案する。
距離タイプ毎に新しい構造認識表現を提案する。
我々はこれらの信号を頑健でタスクに依存しない複合距離に統一する。
- 参考スコア(独自算出の注目度): 4.262015666551064
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing linguistic knowledge bases such as URIEL+ provide valuable geographic, genetic and typological distances for cross-lingual transfer but suffer from two key limitations. One, their one-size-fits-all vector representations are ill-suited to the diverse structures of linguistic data, and two, they lack a principled method for aggregating these signals into a single, comprehensive score. In this paper, we address these gaps by introducing a framework for type-matched language distances. We propose novel, structure-aware representations for each distance type: speaker-weighted distributions for geography, hyperbolic embeddings for genealogy, and a latent variables model for typology. We unify these signals into a robust, task-agnostic composite distance. In selecting transfer languages, our representations and composite distances consistently improve performance across a wide range of NLP tasks, providing a more principled and effective toolkit for multilingual research.
- Abstract(参考訳): URIEL+のような既存の言語知識基盤は、言語間移動には貴重な地理的、遺伝的、型的距離を提供するが、2つの重要な制限がある。
1つは、その1つは、全てのベクトル表現が言語データの多様な構造に不適であり、もう1つは、これらの信号を1つの総合的なスコアに集約する原則的な方法が欠如していることである。
本稿では,型マッチング言語距離のためのフレームワークを導入することで,これらのギャップに対処する。
本稿では,地理的な話者重み付き分布,遺伝子学の双曲的埋め込み,類型学の潜時変数モデルを提案する。
我々はこれらの信号を頑健でタスクに依存しない複合距離に統一する。
伝達言語の選択において、我々の表現と合成距離は、幅広いNLPタスクのパフォーマンスを一貫して改善し、多言語研究のためのより原理的で効果的なツールキットを提供する。
関連論文リスト
- Untangling the Influence of Typology, Data and Model Architecture on Ranking Transfer Languages for Cross-Lingual POS Tagging [1.743739675178893]
言語間の伝達学習は、データの不足を克服するための貴重なツールである。
翻訳言語選択における言語型学、訓練データ、モデルアーキテクチャの正確な役割は、完全には理解されていない。
我々は、データセット固有の特徴と微粒な特徴の両方がトランスファー言語の選択にどのように影響するかを総合的に検討する。
論文 参考訳(メタデータ) (2025-03-25T18:05:40Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training [38.19963761398705]
本稿では,近年のIEコーパスにおける多言語多言語変換可能性(多言語間移動学習)に関する詳細な解析を行う。
まず、単一言語のパフォーマンスと幅広い言語に基づく距離の相関について検討する。
次に,複数の言語が学習・評価プロセスに関与している,より一般的なゼロショット多言語転送設定について検討する。
論文 参考訳(メタデータ) (2024-11-13T17:13:25Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - Probing Multilingual BERT for Genetic and Typological Signals [28.360662552057324]
我々は多言語BERT(mBERT)の層を探索し,100言語にわたる系統的および地理的言語信号について検討した。
我々は,言語木を推定・評価するために,言語距離を用い,四重項木距離の点から基準系木に近いことが判明した。
論文 参考訳(メタデータ) (2020-11-04T00:03:04Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。