論文の概要: Experiments with LVT and FRE for Transformer model
- arxiv url: http://arxiv.org/abs/2004.12495v1
- Date: Sun, 26 Apr 2020 22:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 13:26:18.804971
- Title: Experiments with LVT and FRE for Transformer model
- Title(参考訳): 変圧器モデルのためのLVTとFREの実験
- Authors: Ilshat Gibadullin, Aidar Valeev
- Abstract要約: 本稿では,テキスト要約のためのトランスフォーマーモデルに適用した大語彙トリックと特徴量符号化の実験を行った。
類似のRNNベースのシーケンス・ツー・シーケンスモデルよりも優れた結果が得られなかったので、より多くのモデルを試してみました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we experiment with Large Vocabulary Trick and Feature-rich
encoding applied to the Transformer model for Text Summarization. We could not
achieve better results, than the analogous RNN-based sequence-to-sequence
model, so we tried more models to find out, what improves the results and what
deteriorates them.
- Abstract(参考訳): 本稿では,テキスト要約用トランスフォーマーモデルに適用した大語彙トリックと特徴量エンコーディングの実験を行う。
類似のrnn-based sequence-to-sequenceモデルよりも優れた結果を得ることはできなかったので、より多くのモデルで結果が改善され、何が劣化するかを見極めようとしました。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Freely Long-Thinking Transformer (FraiLT) [0.0]
Freely Long-Thinking Transformer (FraiLT) は、サイズをスケールアップすることなく処理能力を向上させるために設計された改良型トランスモデルである。
FraiLTは再帰的アプローチを採用し、レイヤのサブセットを複数回反復し、繰り返しエンコーディングを導入して、これらのサイクル間の認識を維持する。
合成ストーリーデータセットで評価すると、FraiLTはより大きなモデルよりも優れており、メモリ要求を減らしながら高品質のパフォーマンスを提供する能力を示している。
論文 参考訳(メタデータ) (2024-01-21T23:37:33Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Research on Named Entity Recognition in Improved transformer with R-Drop
structure [3.677017987610888]
本稿では,XLNet-Transformer-Rモデルを提案する。
相対的な位置エンコーディングを備えたTransformerエンコーダが組み合わされ、長いテキストを処理するモデルの能力が向上する。
オーバーフィッティングを防止するため、R-Drop構造を用いて一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-06-14T07:34:27Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Non-Autoregressive Translation by Learning Target Categorical Codes [59.840510037250944]
本論文では,非回帰型復号法に潜在変数として暗黙的に分類符号を学習するCNATを提案する。
実験の結果,本モデルは機械翻訳タスクにおいて同等あるいは優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-03-21T14:12:34Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。