論文の概要: Locating Language-Specific Information in Contextualized Embeddings
- arxiv url: http://arxiv.org/abs/2109.08040v1
- Date: Thu, 16 Sep 2021 15:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:01:57.676527
- Title: Locating Language-Specific Information in Contextualized Embeddings
- Title(参考訳): 文脈的埋め込みにおける言語特化情報の位置決め
- Authors: Sheng Liang, Philipp Dufter, Hinrich Sch\"utze
- Abstract要約: 多言語事前訓練言語モデル(MPLM)は多言語性を示し、言語間の移動に適している。
MPLM表現が言語に依存しないのか、それとも単に学習したタスク予測ヘッドとインターリーブするだけなのかが問題となる。
言語固有の情報をMPLM内に配置し,その次元と,その発生する層を識別する。
- 参考スコア(独自算出の注目度): 2.836066255205732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual pretrained language models (MPLMs) exhibit multilinguality and
are well suited for transfer across languages. Most MPLMs are trained in an
unsupervised fashion and the relationship between their objective and
multilinguality is unclear. More specifically, the question whether MPLM
representations are language-agnostic or they simply interleave well with
learned task prediction heads arises. In this work, we locate language-specific
information in MPLMs and identify its dimensionality and the layers where this
information occurs. We show that language-specific information is scattered
across many dimensions, which can be projected into a linear subspace. Our
study contributes to a better understanding of MPLM representations, going
beyond treating them as unanalyzable blobs of information.
- Abstract(参考訳): 多言語事前訓練言語モデル(MPLM)は多言語性を示し、言語間の移動に適している。
ほとんどのMPLMは教師なしで訓練されており、目的と多言語の関係は不明確である。
より具体的には、MPLM表現が言語に依存しないのか、単に学習したタスク予測ヘッドと干渉するだけなのかが問題となる。
本研究では,言語固有の情報をmplmに配置し,その次元とその情報が発生する層を同定する。
言語固有の情報は様々な次元に分散し,線形部分空間に投影できることを示す。
本研究は,MPLM表現をよりよく理解し,解析不能な情報の塊として扱うこと以上に貢献する。
関連論文リスト
- Tracing the Roots of Facts in Multilingual Language Models: Independent,
Shared, and Transferred Knowledge [16.923674220979]
本研究では,多言語言語モデル(ML-LM)が事実知識をどのように獲得し,表現するかを検討する。
ML-LMにおける事実の獲得と表現の3つのパターンを識別する。
本研究は,言語間における一貫した事実知識の維持という課題を浮き彫りにした。
論文 参考訳(メタデータ) (2024-03-08T10:09:57Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。