論文の概要: Exploring Dimensionality Reduction Techniques in Multilingual
Transformers
- arxiv url: http://arxiv.org/abs/2204.08415v1
- Date: Mon, 18 Apr 2022 17:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 15:48:25.741912
- Title: Exploring Dimensionality Reduction Techniques in Multilingual
Transformers
- Title(参考訳): 多言語トランスフォーマの次元性低減手法の検討
- Authors: \'Alvaro Huertas-Garc\'ia, Alejandro Mart\'in, Javier Huertas-Tato,
David Camacho
- Abstract要約: 本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
- 参考スコア(独自算出の注目度): 64.78260098263489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both in scientific literature and in industry,, Semantic and context-aware
Natural Language Processing-based solutions have been gaining importance in
recent years. The possibilities and performance shown by these models when
dealing with complex Language Understanding tasks is unquestionable, from
conversational agents to the fight against disinformation in social networks.
In addition, considerable attention is also being paid to developing
multilingual models to tackle the language bottleneck. The growing need to
provide more complex models implementing all these features has been
accompanied by an increase in their size, without being conservative in the
number of dimensions required. This paper aims to give a comprehensive account
of the impact of a wide variety of dimensional reduction techniques on the
performance of different state-of-the-art multilingual Siamese Transformers,
including unsupervised dimensional reduction techniques such as linear and
nonlinear feature extraction, feature selection, and manifold techniques. In
order to evaluate the effects of these techniques, we considered the
multilingual extended version of Semantic Textual Similarity Benchmark (mSTSb)
and two different baseline approaches, one using the pre-trained version of
several models and another using their fine-tuned STS version. The results
evidence that it is possible to achieve an average reduction in the number of
dimensions of $91.58\% \pm 2.59\%$ and $54.65\% \pm 32.20\%$, respectively.
This work has also considered the consequences of dimensionality reduction for
visualization purposes. The results of this study will significantly contribute
to the understanding of how different tuning approaches affect performance on
semantic-aware tasks and how dimensional reduction techniques deal with the
high-dimensional embeddings computed for the STS task and their potential for
highly demanding NLP tasks
- Abstract(参考訳): 科学文献と産業において、セマンティックおよび文脈対応自然言語処理ベースのソリューションは近年重要視されている。
複雑な言語理解タスクを扱う際にこれらのモデルによって示される可能性と性能は、対話型エージェントからソーシャルネットワークにおける偽情報との戦いまで、疑わしいものではない。
さらに、言語ボトルネックに対処する多言語モデルの開発にもかなりの注意が払われている。
これらの機能をすべて実装したより複雑なモデルを提供する必要性が高まるにつれ、必要な次元の数を保守的にすることなく、サイズが大きくなる。
本稿では, 線形および非線形特徴抽出, 特徴選択, 多様体技術などの非教師なし次元化技術を含む, 最先端多言語シームズ変圧器の性能に及ぼす多次元化技術の影響を包括的に考察することを目的とする。
これらの手法の有効性を評価するために,セマンティックテキスト類似性ベンチマーク(mSTSb)の多言語拡張版と,いくつかのモデルの事前学習版と,その微調整版を用いた2つのベースラインアプローチを検討した。
結果は、それぞれ91.58\% \pm 2.59\%$と54.65\% \pm 32.20\%$の次元を平均で減少させることが可能であることを示している。
この研究は、可視化のための次元削減の結果も考慮している。
本研究の結果は,異なるチューニング手法が意味認識タスクのパフォーマンスに与える影響と,STSタスクに計算された高次元埋め込みと高要求のNLPタスクにどう対処するかの理解に大きく貢献する。
関連論文リスト
- Exploring the Impact of a Transformer's Latent Space Geometry on Downstream Task Performance [0.0]
事前学習の利点の多くは、潜在空間表現の幾何学的特徴によって捉えられる可能性がある。
量子化セル密度の測定値と平均GLUE性能との間には強い線形関係があることが判明した。
論文 参考訳(メタデータ) (2024-06-18T00:17:30Z) - ESE: Espresso Sentence Embeddings [11.682642816354418]
高品質な文埋め込みは多くの自然言語処理(NLP)タスクにおいて基本となる。
本稿では,2つの学習プロセスを持つ新しい文埋め込みモデル$mathrmEspresso$$mathrmSentence$$mathrmEmbeddings$ (ESE)を提案する。
論文 参考訳(メタデータ) (2024-02-22T18:35:05Z) - Comparison between parameter-efficient techniques and full fine-tuning: A case study on multilingual news article classification [4.498100922387482]
Adapters and Low-Rank Adaptation (LoRA)は、言語モデルのトレーニングをより効率的にするために設計されたパラメータ効率の良い微調整技術である。
過去の結果は,これらの手法がいくつかの分類タスクの性能を向上させることさえできることを示した。
本稿では,これらの手法が完全微調整と比較して分類性能と計算コストに与える影響について検討する。
論文 参考訳(メタデータ) (2023-08-14T17:12:43Z) - Probing Out-of-Distribution Robustness of Language Models with
Parameter-Efficient Transfer Learning [17.110208720745064]
本研究では, PLMのサイズが大きくなるか, 移動方法が変化するにつれて, 分布外を検出する能力がどう変化するかを検討する。
我々は,3種類の意図分類タスクにおいて,細調整,アダプタ,LoRA,プレフィックスチューニングなどのPETL技術を評価した。
論文 参考訳(メタデータ) (2023-01-27T11:27:40Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。