論文の概要: Do We Really Need That Many Parameters In Transformer For Extractive
Summarization? Discourse Can Help !
- arxiv url: http://arxiv.org/abs/2012.02144v1
- Date: Thu, 3 Dec 2020 18:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 19:31:47.710212
- Title: Do We Really Need That Many Parameters In Transformer For Extractive
Summarization? Discourse Can Help !
- Title(参考訳): 抽出要約には、トランスフォーマーにこれほど多くのパラメータが必要ですか?
Discourse Can Help!
- Authors: Wen Xiao, Patrick Huber, Giuseppe Carenini
- Abstract要約: 談話先行情報を用いた新しいパラメータリーン自己認識機構を提案する。
我々の新しい木自己注意は文書レベルの談話情報に基づいている。
本研究は,本手法が抽出的要約の課題において,競合的なROUGEスコアを達成できることを実証的に示す。
- 参考スコア(独自算出の注目度): 7.421040034454999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multi-head self-attention of popular transformer models is widely used
within Natural Language Processing (NLP), including for the task of extractive
summarization. With the goal of analyzing and pruning the parameter-heavy
self-attention mechanism, there are multiple approaches proposing more
parameter-light self-attention alternatives. In this paper, we present a novel
parameter-lean self-attention mechanism using discourse priors. Our new tree
self-attention is based on document-level discourse information, extending the
recently proposed "Synthesizer" framework with another lightweight alternative.
We show empirical results that our tree self-attention approach achieves
competitive ROUGE-scores on the task of extractive summarization. When compared
to the original single-head transformer model, the tree attention approach
reaches similar performance on both, EDU and sentence level, despite the
significant reduction of parameters in the attention component. We further
significantly outperform the 8-head transformer model on sentence level when
applying a more balanced hyper-parameter setting, requiring an order of
magnitude less parameters.
- Abstract(参考訳): 一般的なトランスモデルのマルチヘッド自己アテンションは自然言語処理(NLP)において広く使われており、抽出的要約のタスクも含んでいる。
パラメータ重自己注意機構の解析と解析を目的とし、パラメータ軽自己意識の代替案を提案する複数のアプローチが存在する。
本稿では,談話先行情報を用いたパラメータリーン自己認識機構を提案する。
我々の新しいツリー自己注意は文書レベルの談話情報に基づいており、最近提案された"シンセサイザー"フレームワークを別の軽量な代替手段で拡張している。
本研究は,本手法が抽出要約作業における競合的ROUGEスコアを達成できることを示す。
従来の単頭変圧器モデルと比較すると,注目成分のパラメータが著しく減少しているにもかかわらず,木注目アプローチはEDUと文レベルの両方で同様の性能に達する。
さらに、よりバランスの取れたハイパーパラメータ設定を適用する場合、文レベルで8ヘッドトランスフォーマーモデルを大きく上回り、桁違いなパラメータを必要とする。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model [66.66687830336255]
オッターは、複数の需要のあるタスクに対して最先端のパフォーマンスを提供し、86.5%の余剰スペースと98.5%の余剰時間を節約している。
Otterは既存の推論エンジンとシームレスに統合され、1行のコードの変更しか必要としない。
論文 参考訳(メタデータ) (2024-08-20T12:00:35Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Are Self-Attentions Effective for Time Series Forecasting? [4.990206466948269]
時系列予測は、複数のドメインやさまざまなシナリオにわたるアプリケーションにとって不可欠である。
近年の研究では、より単純な線形モデルは、複雑なトランスフォーマーベースのアプローチよりも優れていることが示されている。
我々は、新しいアーキテクチャ、クロスアテンションのみの時系列変換器(CATS)を導入する。
提案モデルでは,平均二乗誤差が最小であり,既存のモデルに比べてパラメータが少ないため,性能が向上する。
論文 参考訳(メタデータ) (2024-05-27T06:49:39Z) - Sparse Universal Transformer [64.78045820484299]
Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。
本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
論文 参考訳(メタデータ) (2023-10-11T00:38:57Z) - Attention Is Not All You Need Anymore [3.9693969407364427]
本稿では,トランスフォーマーの自己保持機構に対するドロップイン置換のファミリを提案する。
実験結果から,自己保持機構をSHEに置き換えることによってトランスフォーマーの性能が向上することが示唆された。
提案されたエクストラクターは、自己保持機構よりも速く走ることができる。
論文 参考訳(メタデータ) (2023-08-15T09:24:38Z) - Parameter-Free Attentive Scoring for Speaker Verification [8.130940584901959]
本稿では,話者検証のためのパラメータフリー注意点定法について,新しい研究を行った。
トランスフォーマーニューラルネットワークのアテンション成分に着想を得て,参加者とテストセグメントの表現を比較するために,スケールドドット製品アテンション機構の変種を提案する。
4タスク平均に対する実験結果から, 単純なパラメータフリー注意スコアリング機構により, 最高のコサイン類似度ベースラインよりも平均EERを10%向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-10T21:11:37Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。
機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文 参考訳(メタデータ) (2021-01-01T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。