論文の概要: The Geometry of Multilingual Language Models: An Equality Lens
- arxiv url: http://arxiv.org/abs/2305.07839v1
- Date: Sat, 13 May 2023 05:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:30:18.240936
- Title: The Geometry of Multilingual Language Models: An Equality Lens
- Title(参考訳): 多言語言語モデルの幾何学:平等レンズ
- Authors: Cheril Shah, Yashashree Chandak, Manan Suri
- Abstract要約: ユークリッド空間における3つの多言語言語モデルの幾何学的解析を行う。
幾何学的分離性指数を用いて、言語は言語族によって近い傾向にあるが、それらは他族の言語とほぼ分離可能である。
- 参考スコア(独自算出の注目度): 2.6746119935689214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the representations of different languages in multilingual
language models is essential for comprehending their cross-lingual properties,
predicting their performance on downstream tasks, and identifying any biases
across languages. In our study, we analyze the geometry of three multilingual
language models in Euclidean space and find that all languages are represented
by unique geometries. Using a geometric separability index we find that
although languages tend to be closer according to their linguistic family, they
are almost separable with languages from other families. We also introduce a
Cross-Lingual Similarity Index to measure the distance of languages with each
other in the semantic space. Our findings indicate that the low-resource
languages are not represented as good as high resource languages in any of the
models
- Abstract(参考訳): 多言語言語モデルにおける異なる言語の表現を理解することは、言語間特性の理解、下流タスクのパフォーマンスの予測、言語間のバイアスの特定に不可欠である。
本研究では, ユークリッド空間における3つの多言語モデルの幾何学を解析し, すべての言語が一意な幾何学で表されることを示す。
幾何学的分離性指数を用いて、言語は言語族によって近い傾向にあるが、それらは他族の言語とほぼ分離可能である。
また,意味空間における言語間距離を測定するために,言語間類似度指数を導入する。
以上の結果から,低リソース言語は,いずれのモデルにおいても高リソース言語ほど良く表現されていないことが示唆された。
関連論文リスト
- The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - A Computational Model for the Assessment of Mutual Intelligibility Among
Closely Related Languages [1.5773159234875098]
密接に関連する言語は、ある言語の話者が積極的に学習することなく他の言語の話者を理解することができる言語類似性を示す。
相互の知性は程度によって異なり、典型的には精神言語実験でテストされる。
本稿では,人間による言語学習の認知過程を近似するために,線形識別学習システムを用いたコンピュータ支援手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T11:32:13Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。