論文の概要: Hierarchical GPT with Congruent Transformers for Multi-Sentence Language
Models
- arxiv url: http://arxiv.org/abs/2009.08636v1
- Date: Fri, 18 Sep 2020 05:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:48:44.960720
- Title: Hierarchical GPT with Congruent Transformers for Multi-Sentence Language
Models
- Title(参考訳): マルチセンテンス言語モデルのための合同トランスフォーマーを用いた階層gpt
- Authors: Jihyeon Roh, Huiseong Gim, Soo-Young Lee
- Abstract要約: GPTに基づく対話生成と文書理解のための多文言語モデル
文符号化ブロック,文生成ブロック,文復号ブロックの3つのブロックからなる階層型GPTを提案する。
- 参考スコア(独自算出の注目度): 3.7040744121020324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report a GPT-based multi-sentence language model for dialogue generation
and document understanding. First, we propose a hierarchical GPT which consists
of three blocks, i.e., a sentence encoding block, a sentence generating block,
and a sentence decoding block. The sentence encoding and decoding blocks are
basically the encoder-decoder blocks of the standard Transformers, which work
on each sentence independently. The sentence generating block is inserted
between the encoding and decoding blocks, and generates the next sentence
embedding vector from the previous sentence embedding vectors. We believe it is
the way human make conversation and understand paragraphs and documents. Since
each sentence may consist of fewer words, the sentence encoding and decoding
Transformers can use much smaller dimensional embedding vectors. Secondly, we
note the attention in the Transformers utilizes the inner-product similarity
measure. Therefore, to compare the two vectors in the same space, we set the
transform matrices for queries and keys to be the same. Otherwise, the
similarity concept is incongruent. We report experimental results to show that
these two modifications increase the language model performance for tasks with
multiple sentences.
- Abstract(参考訳): GPTに基づく対話生成と文書理解のための多文言語モデルについて報告する。
まず,文符号化ブロック,文生成ブロック,文復号ブロックという3つのブロックからなる階層型GPTを提案する。
文の符号化と復号化は基本的に標準変換器のエンコーダ・デコーダブロックであり、各文は独立して動作する。
符号化ブロックと復号ブロックの間に文生成ブロックを挿入し、前の文埋め込みベクタから次の文埋め込みベクタを生成する。
それは人間が会話し、段落や文書を理解する方法だと信じています。
各文は少ない単語から成り立つので、トランスフォーマーの符号化と復号はより小さな次元の埋め込みベクトルを使用することができる。
第二に、トランスフォーマーの注意は内積類似度尺度を利用する。
したがって、同じ空間内の2つのベクトルを比較するために、クエリとキーの変換行列を同じものに設定する。
そうでなければ、類似性の概念は矛盾する。
この2つの修正により,複数文のタスクに対する言語モデルの性能が向上することを示す実験結果について報告する。
関連論文リスト
- Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers [8.908747084128397]
時間カウントロジックの $textsfK_textt$[#] と RASP の $textsfC-RASP$ を紹介します。
それらが互いに等価であることを示し、それらが結合されていない入力サイズを持つ将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
論文 参考訳(メタデータ) (2024-04-05T20:36:30Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Transformer over Pre-trained Transformer for Neural Text Segmentation
with Enhanced Topic Coherence [6.73258176462356]
それは、事前訓練されたトランスフォーマーを用いたボトムレベル文エンコーダと、文埋め込みに基づく上位レベルのトランスフォーマーベースのセグメンテーションモデルである。
実験の結果、Transformer$2$は、一般的に使われているセマンティックコヒーレンス尺度によって、最先端のテキストセグメンテーションモデルを超えていることがわかった。
論文 参考訳(メタデータ) (2021-10-14T05:26:39Z) - Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文 参考訳(メタデータ) (2021-09-27T14:06:47Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - MART: Memory-Augmented Recurrent Transformer for Coherent Video
Paragraph Captioning [128.36951818335046]
MART(Memory-Augmented Recurrent Transformer)と呼ばれる新しい手法を提案する。
MARTはメモリモジュールを使用してトランスフォーマーアーキテクチャを拡張する。
MARTはベースライン法よりもコヒーレントで繰り返しない段落を生成する。
論文 参考訳(メタデータ) (2020-05-11T20:01:41Z) - Hierarchical Attention Transformer Architecture For Syntactic Spell
Correction [1.0312968200748118]
従来の変圧器のマルチエンコーダと単一復号器のバリエーションを提案する。
CER, 単語(WER), 文(SER)の誤り率について, 0.11%, 0.32%, 0.69%の大幅な改善を報告した。
私たちのアーキテクチャも7.8倍高速で、次の最も正確なモデルに比べて1/3程度の大きさしかありません。
論文 参考訳(メタデータ) (2020-05-11T06:19:01Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z) - Probing Word Translations in the Transformer and Trading Decoder for
Encoder Layers [69.40942736249397]
トランスフォーマー層における単語の翻訳方法はまだ研究されていない。
翻訳はすでにエンコーダ層や入力埋め込みでも徐々に行われています。
実験の結果,翻訳品質が低い2.3までの速度向上が可能であり,さらに18-4のディープエンコーダ構成では翻訳品質が1.42BLEU(En-De)の速度アップで+1.42BLEU(En-De)向上することがわかった。
論文 参考訳(メタデータ) (2020-03-21T06:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。