論文の概要: Pre-Training a Graph Recurrent Network for Language Representation
- arxiv url: http://arxiv.org/abs/2209.03834v1
- Date: Thu, 8 Sep 2022 14:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:54:18.296002
- Title: Pre-Training a Graph Recurrent Network for Language Representation
- Title(参考訳): 言語表現のためのグラフリカレントネットワークの事前学習
- Authors: Yile Wang, Linyi Yang, Zhiyang Teng, Ming Zhou, Yue Zhang
- Abstract要約: 本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
- 参考スコア(独自算出の注目度): 34.4554387894105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pre-trained models have gained much advance in recent
years, becoming one of the most important backbones in natural language
processing. Recent work shows that the attention mechanism inside Transformer
may not be necessary, both convolutional neural networks and multi-layer
perceptron based models have also been investigated as Transformer
alternatives. In this paper, we consider a graph recurrent network for language
model pre-training, which builds a graph structure for each sequence with local
token-level communications, together with a sentence-level representation
decoupled from other tokens. The original model performs well in
domain-specific text classification under supervised training, however, its
potential in learning transfer knowledge by self-supervised way has not been
fully exploited. We fill this gap by optimizing the architecture and verifying
its effectiveness in more general language understanding tasks, for both
English and Chinese languages. As for model efficiency, instead of the
quadratic complexity in Transformer-based models, our model has linear
complexity and performs more efficiently during inference. Moreover, we find
that our model can generate more diverse outputs with less contextualized
feature redundancy than existing attention-based models.
- Abstract(参考訳): トランスフォーマーベースの事前学習モデルは近年大きく進歩し、自然言語処理において最も重要なバックボーンの1つとなった。
近年の研究では、Transformer内部の注意機構は必要ではなく、畳み込みニューラルネットワークと多層パーセプトロンモデルの両方がTransformer代替品として研究されている。
本稿では,言語モデル事前学習のためのグラフリカレントネットワークについて考察し,他のトークンから切り離された文レベルの表現とともに,局所的なトークンレベルの通信で各シーケンスのグラフ構造を構築する。
元々のモデルは教師付き学習の下でドメイン固有のテキスト分類においてよく機能するが、自己教師付き学習による伝達知識の潜在性は十分に活用されていない。
このギャップを、アーキテクチャを最適化し、より一般的な言語理解タスクにおいて、英語と中国語の両方でその効果を検証することで埋める。
モデル効率については, 変圧器モデルにおける二次複雑度の代わりに, 線形複雑度を持ち, 推論時により効率的に動作する。
さらに,本モデルでは,既存の注目モデルよりも文脈的特徴冗長性が少なく,より多様な出力を生成できることがわかった。
関連論文リスト
- Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。