論文の概要: The Impact of Positional Encodings on Multilingual Compression
- arxiv url: http://arxiv.org/abs/2109.05388v1
- Date: Sat, 11 Sep 2021 23:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:48:52.412384
- Title: The Impact of Positional Encodings on Multilingual Compression
- Title(参考訳): 多言語圧縮における位置符号化の影響
- Authors: Vinit Ravishankar, Anders S{\o}gaard
- Abstract要約: 元のトランスアーキテクチャで使われる正弦波の位置エンコーディングに対して、いくつかの修正が提案されている。
まず、これらの修正はモノリンガル言語モデルを改善する傾向にあるが、いずれの修正もより良いマルチリンガル言語モデルをもたらすものではないことを示す。
- 参考スコア(独自算出の注目度): 3.454503173118508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to preserve word-order information in a non-autoregressive setting,
transformer architectures tend to include positional knowledge, by (for
instance) adding positional encodings to token embeddings. Several
modifications have been proposed over the sinusoidal positional encodings used
in the original transformer architecture; these include, for instance,
separating position encodings and token embeddings, or directly modifying
attention weights based on the distance between word pairs. We first show that
surprisingly, while these modifications tend to improve monolingual language
models, none of them result in better multilingual language models. We then
answer why that is: Sinusoidal encodings were explicitly designed to facilitate
compositionality by allowing linear projections over arbitrary time steps.
Higher variances in multilingual training distributions requires higher
compression, in which case, compositionality becomes indispensable. Learned
absolute positional encodings (e.g., in mBERT) tend to approximate sinusoidal
embeddings in multilingual settings, but more complex positional encoding
architectures lack the inductive bias to effectively learn compositionality and
cross-lingual alignment. In other words, while sinusoidal positional encodings
were originally designed for monolingual applications, they are particularly
useful in multilingual language models.
- Abstract(参考訳): 非自己回帰的な設定で語順情報を保存するために、トランスフォーマーアーキテクチャは(例えば)トークン埋め込みに位置エンコーディングを追加することで、位置知識を含む傾向がある。
例えば、位置エンコーディングとトークン埋め込みを分離したり、単語ペア間の距離に基づいて注意重みを直接修正したりするなどである。
これらの変更はモノリンガル言語モデルを改善する傾向にあるが、いずれのモデルもより良いマルチリンガル言語モデルをもたらすものではない。
正弦波符号化は任意の時間ステップ上の線形射影を許容することにより構成性を促進するように設計されている。
多言語学習分布の高次分散は高い圧縮を必要とするが、その場合、構成性は不可欠である。
絶対的な位置符号化(例:mBERT)は、多言語設定での正弦波埋め込みを近似する傾向があるが、より複雑な位置符号化アーキテクチャは、構成性や言語間アライメントを効果的に学習する帰納バイアスを欠いている。
言い換えれば、正弦波位置符号化はもともと単言語アプリケーション用に設計されたが、多言語言語モデルでは特に有用である。
関連論文リスト
- Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment [50.80949663719335]
文埋め込みの言語間アライメントの訓練は、個々の言語の意味空間の最適な単言語構造を歪ませる。
我々は、言語間の負の干渉を避けるために、言語固有の文エンコーダを訓練する。
次に、英語以外のすべてのモノリンガルエンコーダを英語エンコーダにアライメントし、その上にクロスリンガルアライメントアダプタをトレーニングする。
論文 参考訳(メタデータ) (2024-07-20T13:56:39Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文 参考訳(メタデータ) (2024-04-06T07:10:47Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。
PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。
2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文 参考訳(メタデータ) (2023-10-19T16:15:15Z) - CONFLATOR: Incorporating Switching Point based Rotatory Positional
Encodings for Code-Mixed Language Modeling [10.26356931263957]
コード混合言語のためのニューラル言語モデリングアプローチであるCONFLATORを紹介する。
回転位置エンコーディングと切替点情報とが最適な結果をもたらすことを示す。
ConFLATORは、コードミキシングされたヒンディー語と英語に基づく2つのタスクで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-09-11T07:02:13Z) - Online Gesture Recognition using Transformer and Natural Language
Processing [0.0]
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-05T10:17:22Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Transformer Language Models without Positional Encodings Still Learn
Positional Information [45.42248458957122]
明確な位置エンコーディングのないトランスフォーマー言語モデルは、標準モデルと競合する。
因果的注意により、各トークンが出席できる前任者の数を推測することができ、従って絶対的な位置を近似することができると推測する。
論文 参考訳(メタデータ) (2022-03-30T19:37:07Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。