論文の概要: Discrete Cosine Transform as Universal Sentence Encoder
- arxiv url: http://arxiv.org/abs/2106.00934v1
- Date: Wed, 2 Jun 2021 04:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-06-03 14:36:22.360964
- Title: Discrete Cosine Transform as Universal Sentence Encoder
- Title(参考訳): 普遍文エンコーダとしての離散コサイン変換
- Authors: Nada Almarwani and Mona Diab
- Abstract要約: 我々は離散コサイン変換(DCT)を用いて、異なる言語に対する普遍的な文表現を生成する。
実験結果からDCT符号化の有効性が明らかとなった。
- 参考スコア(独自算出の注目度): 10.355894890759377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern sentence encoders are used to generate dense vector representations
that capture the underlying linguistic characteristics for a sequence of words,
including phrases, sentences, or paragraphs. These kinds of representations are
ideal for training a classifier for an end task such as sentiment analysis,
question answering and text classification. Different models have been proposed
to efficiently generate general purpose sentence representations to be used in
pretraining protocols. While averaging is the most commonly used efficient
sentence encoder, Discrete Cosine Transform (DCT) was recently proposed as an
alternative that captures the underlying syntactic characteristics of a given
text without compromising practical efficiency compared to averaging. However,
as with most other sentence encoders, the DCT sentence encoder was only
evaluated in English. To this end, we utilize DCT encoder to generate universal
sentence representation for different languages such as German, French, Spanish
and Russian. The experimental results clearly show the superior effectiveness
of DCT encoding in which consistent performance improvements are achieved over
strong baselines on multiple standardized datasets.
- Abstract(参考訳): 現代の文エンコーダは、句、文、段落を含む単語列の根底にある言語特性をキャプチャする密度の高いベクトル表現を生成するために使用される。
このような表現は、感情分析、質問応答、テキスト分類などの最終タスクの分類器を訓練するのに理想的です。
事前学習プロトコルで使用する汎用文表現を効率よく生成するモデルが提案されている。
平均化が最もよく使われる文エンコーダであるのに対し、離散コサイン変換(DCT)は、最近、平均化よりも実用的な効率を損なうことなく、与えられたテキストの基本的な構文特性をキャプチャする代替手段として提案されている。
しかし、他のほとんどの文エンコーダと同様に、DCT文エンコーダは英語でのみ評価された。
この目的のために、DCTエンコーダを用いて、ドイツ語、フランス語、スペイン語、ロシア語など様々な言語に対して普遍的な文表現を生成する。
実験結果から,複数の標準データセット上での強いベースライン上で一貫した性能向上を実現するDCT符号化の有効性が明らかとなった。
関連論文リスト
- SenTest: Evaluating Robustness of Sentence Encoders [0.4194295877935868]
本研究は文エンコーダの堅牢性を評価することに焦点を当てる。
我々はその堅牢性を評価するためにいくつかの敵攻撃を用いる。
実験結果は文エンコーダの堅牢性を強く損なう。
論文 参考訳(メタデータ) (2023-11-29T15:21:35Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - On the Suitability of Representations for Quality Diversity Optimization
of Shapes [77.34726150561087]
進化的アルゴリズムで使用される表現、あるいは符号化は、その性能に大きな影響を及ぼす。
本研究では, 直接符号化, 辞書ベース表現, パラメトリック符号化, 合成パターン生成ネットワーク, セルオートマトンなどの表現が, 酸化メッシュの生成に与える影響について比較した。
論文 参考訳(メタデータ) (2023-04-07T07:34:23Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Transition based Graph Decoder for Neural Machine Translation [41.7284715234202]
本稿では,木とグラフのデコーディングをトランジションのシーケンス生成に基づいて一般化したトランスフォーマーベースのアプローチを提案する。
標準のTransformerデコーダよりも性能が向上し,モデルの短縮バージョンも向上した。
論文 参考訳(メタデータ) (2021-01-29T15:20:45Z) - Adapting Pretrained Transformer to Lattices for Spoken Language
Understanding [39.50831917042577]
ASR(Automatic Speech Recognitionr)が生成した1-best結果とは対照的に格子の符号化により,音声言語理解(SLU)の性能が向上することが示されている。
本稿では,事前学習したトランスフォーマーを格子入力に適用し,音声言語に特化して理解タスクを実行することを目的とする。
論文 参考訳(メタデータ) (2020-11-02T07:14:34Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Discovering Useful Sentence Representations from Large Pretrained
Language Models [8.212920842986689]
本稿では,事前学習した言語モデルをユニバーサルデコーダとして利用できるかどうかを考察する。
大量の英文で学習した大規模トランスフォーマーベース言語モデルに対して,そのような表現が容易に発見できるかどうかを考察する。
本稿では,変換器モデルに対する3つの表現注入手法と,この表現空間から文をマッピングする3つの随伴手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T16:03:51Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。