論文の概要: Counterfactually Probing Language Identity in Multilingual Models
- arxiv url: http://arxiv.org/abs/2310.18862v1
- Date: Sun, 29 Oct 2023 01:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:50:29.342222
- Title: Counterfactually Probing Language Identity in Multilingual Models
- Title(参考訳): 多言語モデルにおける言語同一性検証
- Authors: Anirudh Srinivasan, Venkata S Govindarajan, Kyle Mahowald
- Abstract要約: 多言語モデルの内部構造を探索するために, 対実的探索法AlterRepを用いる。
言語 X のテンプレートを考えると、言語 Y が言語 Y の単語の確率を体系的に増加させることが分かる。
- 参考スコア(独自算出の注目度): 15.260518230218414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Techniques in causal analysis of language models illuminate how linguistic
information is organized in LLMs. We use one such technique, AlterRep, a method
of counterfactual probing, to explore the internal structure of multilingual
models (mBERT and XLM-R). We train a linear classifier on a binary language
identity task, to classify tokens between Language X and Language Y. Applying a
counterfactual probing procedure, we use the classifier weights to project the
embeddings into the null space and push the resulting embeddings either in the
direction of Language X or Language Y. Then we evaluate on a masked language
modeling task. We find that, given a template in Language X, pushing towards
Language Y systematically increases the probability of Language Y words, above
and beyond a third-party control language. But it does not specifically push
the model towards translation-equivalent words in Language Y. Pushing towards
Language X (the same direction as the template) has a minimal effect, but
somewhat degrades these models. Overall, we take these results as further
evidence of the rich structure of massive multilingual language models, which
include both a language-specific and language-general component. And we show
that counterfactual probing can be fruitfully applied to multilingual models.
- Abstract(参考訳): 言語モデルの因果解析技術は、言語情報がLLMでどのように組織化されているかを示す。
我々は,多言語モデル(mbertおよびxlm-r)の内部構造を探索するために,反事実探索法であるalterrepを用いた。
二項言語識別タスクで線形分類器を訓練し、言語 x と言語 y の間でトークンを分類する。偽のプローブ手順を適用することで、分類器重みを使って、埋め込みをヌル空間に投影し、その結果の埋め込みを言語 x または言語 y の方向にプッシュする。その後、マスク付き言語モデリングタスクで評価する。
言語 X のテンプレートを考えると、言語 Y が言語 Y の単語の確率を第三者の制御言語より上から上へと体系的に増加させることが分かる。
言語x(テンプレートと同じ方向)へのプッシュは、最小限の効果しか与えませんが、これらのモデルを多少劣化させています。
全体として、これらの結果は、言語固有のコンポーネントと言語一般コンポーネントの両方を含む、大規模多言語言語モデルのリッチな構造に関するさらなる証拠とみなす。
また, 反事実探索が多言語モデルに適用可能であることを示す。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。