論文の概要: Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks
- arxiv url: http://arxiv.org/abs/2310.15552v1
- Date: Tue, 24 Oct 2023 06:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:21:51.641049
- Title: Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks
- Title(参考訳): トランスフォーマーモデルにおける多言語性:フィードフォワードネットワークにおける言語特異性の検討
- Authors: Sunit Bhattacharya and Ondrej Bojar
- Abstract要約: 多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
- 参考スコア(独自算出の注目度): 12.7259425362286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research suggests that the feed-forward module within Transformers can
be viewed as a collection of key-value memories, where the keys learn to
capture specific patterns from the input based on the training examples. The
values then combine the output from the 'memories' of the keys to generate
predictions about the next token. This leads to an incremental process of
prediction that gradually converges towards the final token choice near the
output layers. This interesting perspective raises questions about how
multilingual models might leverage this mechanism. Specifically, for
autoregressive models trained on two or more languages, do all neurons (across
layers) respond equally to all languages? No! Our hypothesis centers around the
notion that during pretraining, certain model parameters learn strong
language-specific features, while others learn more language-agnostic (shared
across languages) features. To validate this, we conduct experiments utilizing
parallel corpora of two languages that the model was initially pretrained on.
Our findings reveal that the layers closest to the network's input or output
tend to exhibit more language-specific behaviour compared to the layers in the
middle.
- Abstract(参考訳): 最近の研究では、トランスフォーマー内のフィードフォワードモジュールは、トレーニングの例に基づいて入力から特定のパターンをキャプチャすることを学ぶキーバリューメモリの集合と見なすことができる。
次に、キーの"メモリ"から出力された値を組み合わせて、次のトークンに関する予測を生成する。
これは、出力層の近くの最終的なトークン選択に向けて徐々に収束する予測の漸進的なプロセスにつながる。
この興味深い視点は、多言語モデルがこのメカニズムをどのように活用するかという疑問を提起する。
具体的には、2つ以上の言語でトレーニングされた自己回帰モデルでは、すべてのニューロン(クロス層)はすべての言語に等しく反応するのか?
いいえ!
我々の仮説は、事前学習中に特定のモデルパラメータが強い言語固有の特徴を学習する一方で、他のパラメータは言語に依存しない(言語間で共有される)特徴を学習するという考えを中心にしている。
これを検証するために,本モデルが最初に事前学習された2言語の並列コーパスを用いて実験を行った。
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
関連論文リスト
- Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory Prediction [23.45902601618188]
言語モデルは、文脈理解と生成性能において印象的な能力を示してきた。
LMTraj (Language-based Multimodal Trajectory predictor) を提案する。
本稿では,言語に基づくモデルが,歩行者の軌道予測に有効なことを示し,既存の数値ベースの予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T11:06:44Z) - Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。
我々のモデルでは、ほとんどの接続は学習後に決定論的になる。
本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文 参考訳(メタデータ) (2023-09-08T03:58:05Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Leveraging recent advances in Pre-Trained Language Models
forEye-Tracking Prediction [0.0]
Natural Language Pro-cessingは、視線追跡データなどの人間由来の行動データを使用してニューラルネットを強化し、構文とセマンティクスにまたがるさまざまなタスクを解決する。
本稿では、ZuCo 1.0とZuCo 2.0データセットを用いて、異なる言語モデルを探り、各単語について、その意味について、これらの用語の特徴を直接予測する。
論文 参考訳(メタデータ) (2021-10-09T06:46:48Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。