論文の概要: Meta-Embeddings Based On Self-Attention
- arxiv url: http://arxiv.org/abs/2003.01371v3
- Date: Thu, 2 Jul 2020 07:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:43:14.953481
- Title: Meta-Embeddings Based On Self-Attention
- Title(参考訳): セルフ・アテンションに基づくメタエンベディング
- Authors: Qichen Li, Yuanqing Lin, Luofeng Zhou, Jian Li
- Abstract要約: 自己保持機構,すなわちDuoに基づくメタ埋め込みモデルを提案する。
0.4M未満のパラメータで、Duoメカニズムは20NGのようなテキスト分類タスクで最先端の精度を達成する。
また,複数の単語埋め込みに基づく最初の機械翻訳モデルである,機械翻訳のためのメタ埋め込みシーケンスモデルを提案する。
- 参考スコア(独自算出の注目度): 7.303794140490842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating meta-embeddings for better performance in language modelling has
received attention lately, and methods based on concatenation or merely
calculating the arithmetic mean of more than one separately trained embeddings
to perform meta-embeddings have shown to be beneficial. In this paper, we
devise a new meta-embedding model based on the self-attention mechanism, namely
the Duo. With less than 0.4M parameters, the Duo mechanism achieves
state-of-the-art accuracy in text classification tasks such as 20NG.
Additionally, we propose a new meta-embedding sequece-to-sequence model for
machine translation, which to the best of our knowledge, is the first machine
translation model based on more than one word-embedding. Furthermore, it has
turned out that our model outperform the Transformer not only in terms of
achieving a better result, but also a faster convergence on recognized
benchmarks, such as the WMT 2014 English-to-French translation task.
- Abstract(参考訳): 言語モデリングにおけるパフォーマンス向上のためのメタ組込みの作成が近年注目されており、複数の個別に訓練された組込みの算術平均を連結あるいは単に計算する手法が有用であることが示されている。
本稿では,自己保持機構,すなわちDuoに基づくメタ埋め込みモデルを提案する。
0.4M未満のパラメータで、Duoメカニズムは20NGのようなテキスト分類タスクで最先端の精度を達成する。
さらに,機械翻訳のためのメタ埋め込みシークエンスモデルを提案する。これは我々の知る限り,複数の単語埋め込みに基づく最初の機械翻訳モデルである。
さらに、我々のモデルは、よりよい結果を得るだけでなく、WMT 2014英語-フランス語翻訳タスクのような認識されたベンチマークにより早く収束するという点で、Transformerよりも優れていることが判明した。
関連論文リスト
- Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - This Looks Better than That: Better Interpretable Models with ProtoPNeXt [14.28283868577614]
原型部品モデルは、コンピュータビジョンのためのブラックボックスディープラーニングモデルに代わる一般的な解釈可能な代替品である。
原型モデルのコンポーネントを統合するための新しいフレームワーク、ProtoPNeXtを作成します。
論文 参考訳(メタデータ) (2024-06-20T18:54:27Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。