論文の概要: HYDRA -- Hyper Dependency Representation Attentions
- arxiv url: http://arxiv.org/abs/2109.05349v1
- Date: Sat, 11 Sep 2021 19:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:49:40.489291
- Title: HYDRA -- Hyper Dependency Representation Attentions
- Title(参考訳): HYDRA -- Hyper Dependency Representation Attentions
- Authors: Ha-Thanh Nguyen, Vu Tran, Tran-Binh Dang, Minh-Quan Bui, Minh-Phuong
Nguyen, Le-Minh Nguyen
- Abstract要約: そこで本稿では,トランスフォーマーモデルに知識を注入するために,事前学習を行うことなく,より軽量な言語自己意図型ヘッドを提案する。
私たちのアプローチは、教師なしの学習をモデルに残して、言語知識を厳格に適合させるというバランスのとれたパラダイムです。
我々は,言語知識のトランスフォーマーモデルへの貢献を示すために,ベンチマークデータセットのフレームワークを実証的に検証した。
- 参考スコア(独自算出の注目度): 4.697611383288171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention is all we need as long as we have enough data. Even so, it is
sometimes not easy to determine how much data is enough while the models are
becoming larger and larger. In this paper, we propose HYDRA heads, lightweight
pretrained linguistic self-attention heads to inject knowledge into transformer
models without pretraining them again. Our approach is a balanced paradigm
between leaving the models to learn unsupervised and forcing them to conform to
linguistic knowledge rigidly as suggested in previous studies. Our experiment
proves that the approach is not only the boost performance of the model but
also lightweight and architecture friendly. We empirically verify our framework
on benchmark datasets to show the contribution of linguistic knowledge to a
transformer model. This is a promising result for a new approach to
transferring knowledge from linguistic resources into transformer-based models.
- Abstract(参考訳): 十分なデータがある限り、注意すべきことはそれだけです。
それでも、モデルが大きくなりつつある間に、どれだけのデータが十分であるかを判断するのは容易ではない。
本稿では,トランスフォーマーモデルに知識を注入するために,HyDRAヘッド,軽量な事前学習型言語自己注意ヘッドを提案する。
我々のアプローチは、モデルに教師なし学習を委ねることと、以前の研究で示唆されたように言語知識に厳格に従わせることのバランスのとれたパラダイムである。
我々の実験は、このアプローチがモデルの性能を高めるだけでなく、軽量でアーキテクチャに優しいことを証明する。
我々は,言語知識のトランスフォーマーモデルへの貢献を示すために,ベンチマークデータセットのフレームワークを実証的に検証した。
これは、言語資源から知識をトランスフォーマーベースのモデルに移す新しいアプローチにとって有望な結果である。
関連論文リスト
- Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - Critical Data Size of Language Models from a Grokking Perspective [35.029074833552656]
我々は、グラッキング構成下での位相遷移をデータ効率仮説に定式化する。
一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。
その結果,言語モデルの学習メカニズムにおけるデータの役割について,新たな視点を提供するとともに,言語モデル学習の理解を深めることができた。
論文 参考訳(メタデータ) (2024-01-19T03:24:36Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Knowledge-Aware Language Model Pretraining [29.56904859722379]
トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。
LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。
我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
論文 参考訳(メタデータ) (2020-06-29T06:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。