論文の概要: Attention Head Masking for Inference Time Content Selection in
Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2104.02205v1
- Date: Tue, 6 Apr 2021 00:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 22:12:06.354950
- Title: Attention Head Masking for Inference Time Content Selection in
Abstractive Summarization
- Title(参考訳): 抽象要約における推定時間選択のための注意ヘッドマスキング
- Authors: Shuyang Cao and Lu Wang
- Abstract要約: 本論文では,エンコーダ・デコーダの注目点を推論時に特定する,簡便かつ効果的な注意ヘッドマスキング手法を提案する。
注意ヘッドマスキングを用いて、要約モデルのエンコーダデコーダ注意とコンテンツ選択行動の関係を明らかにすることができる。
当社のモデルは、CNN/Daily MailおよびNew York Timesデータセットの以前の最新モデルよりも優れています。
- 参考スコア(独自算出の注目度): 6.017006996402699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we effectively inform content selection in Transformer-based
abstractive summarization models? In this work, we present a
simple-yet-effective attention head masking technique, which is applied on
encoder-decoder attentions to pinpoint salient content at inference time. Using
attention head masking, we are able to reveal the relation between
encoder-decoder attentions and content selection behaviors of summarization
models. We then demonstrate its effectiveness on three document summarization
datasets based on both in-domain and cross-domain settings. Importantly, our
models outperform prior state-of-the-art models on CNN/Daily Mail and New York
Times datasets. Moreover, our inference-time masking technique is also
data-efficient, requiring only 20% of the training samples to outperform BART
fine-tuned on the full CNN/DailyMail dataset.
- Abstract(参考訳): トランスフォーマーに基づく抽象要約モデルにおけるコンテンツ選択を効果的に通知する方法
そこで本研究では,エンコーダ・デコーダの注意に応用し,推定時の突出コンテンツをピンポイントする,簡便かつ効果的な注意ヘッドマスキング手法を提案する。
アテンションヘッドマスクを用いることで,エンコーダ・デコーダアテンションと要約モデルのコンテンツ選択行動の関係を明らかにすることができる。
次に、その効果を、ドメイン内とドメイン間の両方の設定に基づく3つの文書要約データセットで実証する。
重要なことは、私たちのモデルはCNN/Daily MailやNew York Timesのデータセットで最先端のモデルよりも優れています。
さらに,この推論時間マスキング手法はデータ効率も高く,全cnn/dailymailデータセットで微調整されたbartを上回るトレーニングサンプルは20%に過ぎなかった。
関連論文リスト
- T-ADAF: Adaptive Data Augmentation Framework for Image Classification
Network based on Tensor T-product Operator [0.0]
本稿ではテンソルT-Product Operatorに基づくAdaptive Data Augmentation Frameworkを提案する。
1つの画像データを3倍にし、これら3つの画像から結果を得る。
数値実験により、我々のデータ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-07T08:30:44Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Online Deep Learning based on Auto-Encoder [4.128388784932455]
オートエンコーダ(ODLAE)に基づく2段階オンライン深層学習を提案する。
復元損失を考慮した自動エンコーダを用いて,インスタンスの階層的潜在表現を抽出する。
我々は,各隠れ層の分類結果を融合して得られる出力レベル融合戦略と,隠れ層の出力を融合させる自己保持機構を利用した特徴レベル融合戦略の2つの融合戦略を考案した。
論文 参考訳(メタデータ) (2022-01-19T02:14:57Z) - Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning [54.90704746573636]
提案手法では,手動でキーフレームを選択する必要はなく,2%の注釈付きフレームで最先端の結果を生成できる。
提案手法は, ランダムに選択したデータに対してわずか2%の費用で作業した場合に, 既存の手法よりも優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2020-11-03T17:35:57Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。