論文の概要: Improve Transformer Pre-Training with Decoupled Directional Relative
Position Encoding and Representation Differentiations
- arxiv url: http://arxiv.org/abs/2210.04246v1
- Date: Sun, 9 Oct 2022 12:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:46:24.085392
- Title: Improve Transformer Pre-Training with Decoupled Directional Relative
Position Encoding and Representation Differentiations
- Title(参考訳): decoupled directional relative position encoding and representation differentiationsを用いたトランスプレトレーニングの改善
- Authors: Haojie Zhang, Mingfei Liang, Ruobing Xie, Zhenlong Sun, Bo Zhang, Leyu
Lin
- Abstract要約: トランスフォーマーに基づく事前学習言語モデルを再検討し、モデルの表現性を制限する可能性のある2つの問題を特定する。
既存の相対位置符号化モデルは、相対距離と方向という2つの異種情報を混同する。
事前学習型言語モデルを改善するための2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 23.2969212998404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we revisit the Transformer-based pre-trained language models
and identify two problems that may limit the expressiveness of the model.
Firstly, existing relative position encoding models (e.g., T5 and DEBERTA)
confuse two heterogeneous information: relative distance and direction. It may
make the model unable to capture the associative semantics of the same
direction or the same distance, which in turn affects the performance of
downstream tasks. Secondly, we notice the pre-trained BERT with Mask Language
Modeling (MLM) pre-training objective outputs similar token representations and
attention weights of different heads, which may impose difficulties in
capturing discriminative semantic representations. Motivated by the above
investigation, we propose two novel techniques to improve pre-trained language
models: Decoupled Directional Relative Position (DDRP) encoding and MTH
pre-training objective. DDRP decouples the relative distance features and the
directional features in classical relative position encoding for better
position information understanding. MTH designs two novel auxiliary losses
besides MLM to enlarge the dissimilarities between (a) last hidden states of
different tokens, and (b) attention weights of different heads, alleviating
homogenization and anisotropic problem in representation learning for better
optimization. Extensive experiments and ablation studies on GLUE benchmark
demonstrate the effectiveness of our proposed methods.
- Abstract(参考訳): 本研究では,トランスフォーマーに基づく事前学習言語モデルを再検討し,モデルの表現性を制限する可能性のある2つの問題を特定する。
まず、既存の相対位置符号化モデル(例えば、T5とDEBERTA)は2つの異種情報(相対距離と方向)を混同する。
モデルが同じ方向または同じ距離の連想的セマンティクスをキャプチャすることができず、結果的に下流タスクのパフォーマンスに影響を与える可能性がある。
第2に,mask Language Modeling (MLM) を用いた事前学習されたBERTは,異なる頭部の類似したトークン表現と注意重みを出力し,識別的意味表現の取得に困難を伴う可能性がある。
本研究は, DDRP符号化とMTH事前学習の目的という, 事前学習型言語モデルを改善するための2つの新しい手法を提案する。
DDRPは、位置情報理解を改善するために、古典的相対位置符号化における相対距離特徴と方向特徴を分離する。
MTHはMLM以外の2つの新しい補助損失を設計し、その相違を拡大する
(a)異なるトークンの最後に隠された状態、及び
(b)異なる頭部の注意重み付け、より良い最適化のために表現学習における均質化と異方性の問題を緩和する。
GLUEベンチマークの大規模な実験とアブレーション研究により,提案手法の有効性が示された。
関連論文リスト
- Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) はビジョントランスフォーマー(ViT)のトレーニングに有望なアプローチとして登場した。
本稿では,動的トークンを動的に集約し,コンテキスト化された目標を出力する動的トーケンモーフィング(DTM)という,新たな自己超越信号を導入する。
DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIM結果を示します。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - Location Sensitive Embedding for Knowledge Graph Reasoning [0.0]
翻訳距離モデルの主な課題は、グラフ内の「頭部」と「尾」の実体を効果的に区別できないことである。
この問題に対処するため,新しい位置感応型埋め込み法 (LSE) を開発した。
LSEは、リレーショナルなマッピングを使用してヘッダーを革新的に修正し、リレーショナルトランスフォーメーションを単なる翻訳よりもリレーショナルトランスフォーメーションとして概念化する。
リンク予測のための4つの大規模KGデータセットで実施された実験では、LSEdは性能が優れているか、最先端の関連作品と競合している。
論文 参考訳(メタデータ) (2023-12-01T22:35:19Z) - Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens [9.590540796223715]
本稿では,表現学習のレンズを用いて,トランスフォーマーにおける文脈内学習プロセスについて検討する。
注目層のICL推論プロセスは、その2重モデルのトレーニング手順と整合し、トークン表現予測を生成する。
理論的結論は、1つのトランスフォーマー層と複数の注意層を含む、より複雑なシナリオにまで拡張します。
論文 参考訳(メタデータ) (2023-10-20T01:55:34Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。