論文の概要: The Impact of Positional Encodings on Multilingual Compression
- arxiv url: http://arxiv.org/abs/2109.05388v1
- Date: Sat, 11 Sep 2021 23:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:48:52.412384
- Title: The Impact of Positional Encodings on Multilingual Compression
- Title(参考訳): 多言語圧縮における位置符号化の影響
- Authors: Vinit Ravishankar, Anders S{\o}gaard
- Abstract要約: 元のトランスアーキテクチャで使われる正弦波の位置エンコーディングに対して、いくつかの修正が提案されている。
まず、これらの修正はモノリンガル言語モデルを改善する傾向にあるが、いずれの修正もより良いマルチリンガル言語モデルをもたらすものではないことを示す。
- 参考スコア(独自算出の注目度): 3.454503173118508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to preserve word-order information in a non-autoregressive setting,
transformer architectures tend to include positional knowledge, by (for
instance) adding positional encodings to token embeddings. Several
modifications have been proposed over the sinusoidal positional encodings used
in the original transformer architecture; these include, for instance,
separating position encodings and token embeddings, or directly modifying
attention weights based on the distance between word pairs. We first show that
surprisingly, while these modifications tend to improve monolingual language
models, none of them result in better multilingual language models. We then
answer why that is: Sinusoidal encodings were explicitly designed to facilitate
compositionality by allowing linear projections over arbitrary time steps.
Higher variances in multilingual training distributions requires higher
compression, in which case, compositionality becomes indispensable. Learned
absolute positional encodings (e.g., in mBERT) tend to approximate sinusoidal
embeddings in multilingual settings, but more complex positional encoding
architectures lack the inductive bias to effectively learn compositionality and
cross-lingual alignment. In other words, while sinusoidal positional encodings
were originally designed for monolingual applications, they are particularly
useful in multilingual language models.
- Abstract(参考訳): 非自己回帰的な設定で語順情報を保存するために、トランスフォーマーアーキテクチャは(例えば)トークン埋め込みに位置エンコーディングを追加することで、位置知識を含む傾向がある。
例えば、位置エンコーディングとトークン埋め込みを分離したり、単語ペア間の距離に基づいて注意重みを直接修正したりするなどである。
これらの変更はモノリンガル言語モデルを改善する傾向にあるが、いずれのモデルもより良いマルチリンガル言語モデルをもたらすものではない。
正弦波符号化は任意の時間ステップ上の線形射影を許容することにより構成性を促進するように設計されている。
多言語学習分布の高次分散は高い圧縮を必要とするが、その場合、構成性は不可欠である。
絶対的な位置符号化(例:mBERT)は、多言語設定での正弦波埋め込みを近似する傾向があるが、より複雑な位置符号化アーキテクチャは、構成性や言語間アライメントを効果的に学習する帰納バイアスを欠いている。
言い換えれば、正弦波位置符号化はもともと単言語アプリケーション用に設計されたが、多言語言語モデルでは特に有用である。
関連論文リスト
- The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。
PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。
2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文 参考訳(メタデータ) (2023-10-19T16:15:15Z) - CONFLATOR: Incorporating Switching Point based Rotatory Positional
Encodings for Code-Mixed Language Modeling [10.26356931263957]
コード混合言語のためのニューラル言語モデリングアプローチであるCONFLATORを紹介する。
回転位置エンコーディングと切替点情報とが最適な結果をもたらすことを示す。
ConFLATORは、コードミキシングされたヒンディー語と英語に基づく2つのタスクで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-09-11T07:02:13Z) - Online Gesture Recognition using Transformer and Natural Language
Processing [0.0]
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-05T10:17:22Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Transformer Language Models without Positional Encodings Still Learn
Positional Information [45.42248458957122]
明確な位置エンコーディングのないトランスフォーマー言語モデルは、標準モデルと競合する。
因果的注意により、各トークンが出席できる前任者の数を推測することができ、従って絶対的な位置を近似することができると推測する。
論文 参考訳(メタデータ) (2022-03-30T19:37:07Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。
トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。
ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文 参考訳(メタデータ) (2021-05-07T00:12:02Z) - A Simple Geometric Method for Cross-Lingual Linguistic Transformations
with Pre-trained Autoencoders [11.506062545971568]
複数の言語で訓練された強力な文エンコーダが増えている。
これらのシステムは、幅広い言語特性をベクトル表現に埋め込むことができる。
埋め込み空間における幾何写像を用いた言語特性の変換について検討する。
論文 参考訳(メタデータ) (2021-04-08T09:33:50Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。