論文の概要: ProphetNet: Predicting Future N-gram for Sequence-to-Sequence
Pre-training
- arxiv url: http://arxiv.org/abs/2001.04063v3
- Date: Wed, 21 Oct 2020 05:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:07:02.681304
- Title: ProphetNet: Predicting Future N-gram for Sequence-to-Sequence
Pre-training
- Title(参考訳): ProphetNet: シーケンスからシーケンスまでの事前トレーニングのための将来のN-gram予測
- Authors: Weizhen Qi, Yu Yan, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen,
Ruofei Zhang, Ming Zhou
- Abstract要約: 本稿ではProphetNetと呼ばれる新しいシーケンス・ツー・シーケンス事前学習モデルを提案する。
将来的なn-gram予測という,新たな自己教師型目標を導入している。
我々は,CNN/DailyMail,Gigaword,SQuAD 1.1ベンチマークを用いて,抽象的な要約と質問生成タスクの実験を行った。
- 参考スコア(独自算出の注目度): 85.35910219651572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new sequence-to-sequence pre-training model called
ProphetNet, which introduces a novel self-supervised objective named future
n-gram prediction and the proposed n-stream self-attention mechanism. Instead
of optimizing one-step-ahead prediction in the traditional sequence-to-sequence
model, the ProphetNet is optimized by n-step ahead prediction that predicts the
next n tokens simultaneously based on previous context tokens at each time
step. The future n-gram prediction explicitly encourages the model to plan for
the future tokens and prevent overfitting on strong local correlations. We
pre-train ProphetNet using a base scale dataset (16GB) and a large-scale
dataset (160GB), respectively. Then we conduct experiments on CNN/DailyMail,
Gigaword, and SQuAD 1.1 benchmarks for abstractive summarization and question
generation tasks. Experimental results show that ProphetNet achieves new
state-of-the-art results on all these datasets compared to the models using the
same scale pre-training corpus.
- Abstract(参考訳): 本稿では,ProphetNetと呼ばれる新しいシーケンス・ツー・シーケンス事前学習モデルを提案し,将来的なn-gram予測とn-stream自己アテンション機構を提案する。
従来のシーケンス・ツー・シーケンスモデルでワンステップの予測を最適化する代わりに、ProphetNetはnステップ前の予測によって最適化される。
将来のn-gram予測は、モデルが将来のトークンを計画し、強い局所相関に過度に適合しないように明示的に促す。
我々は,ベーススケールデータセット(16gb)と大規模データセット(160gb)を用いて,prophetnetを事前学習する。
次に,要約と質問生成タスクのためのcnn/dailymail,gigaword, squad 1.1ベンチマーク実験を行う。
実験結果から,ProphetNetは,これらすべてのデータセットに対して,同じスケールの事前学習コーパスを用いたモデルと比較して,新たな最先端結果を実現することが示された。
関連論文リスト
- Sparse Prototype Network for Explainable Pedestrian Behavior Prediction [60.80524827122901]
Sparse Prototype Network (SPN) は,歩行者の将来の行動,軌道,ポーズを同時に予測するための説明可能な手法である。
モノセマンティリティとクラスタリングの制約によって規則化されたプロトタイプは、一貫性と人間の理解可能な機能を学ぶ。
論文 参考訳(メタデータ) (2024-10-16T03:33:40Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - PerfSAGE: Generalized Inference Performance Predictor for Arbitrary Deep
Learning Models on Edge Devices [8.272409756443539]
本稿では、任意のDNNliteグラフ上の推論遅延、エネルギー、メモリフットプリントを予測する新しいグラフニューラルネットワークであるPerfSAGEについて述べる。
このデータセットを用いて、PerfSAGEをトレーニングし、すべてのターゲットとモデル検索空間にわたって平均絶対パーセンテージ誤差の5%で最先端の予測精度を示す実験結果を提供する。
論文 参考訳(メタデータ) (2023-01-26T08:59:15Z) - NETpred: Network-based modeling and prediction of multiple connected
market indices [8.122270502556372]
我々は、複数の関連指標とその在庫を表す新しいグラフを生成する、NETpredというフレームワークを紹介した。
次に、状態空間の異なる部分をカバーし、価格の動きを正確に予測できる多様な代表ノードの集合を徹底的に選択する。
得られたモデルを使用して、最終的に集約されたストックラベルを予測し、グラフ内のすべてのインデックスノードのラベルを推測する。
論文 参考訳(メタデータ) (2022-12-02T17:23:09Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Pyramidal Predictive Network: A Model for Visual-frame Prediction Based
on Predictive Coding Theory [1.4610038284393165]
本稿では,視覚的フレーム予測のためのニューラルネットワークモデルを提案する。
このモデルは、トップダウンストリームとボトムアップストリームを形成する一連の繰り返しおよび畳み込みユニットで構成されている。
ネットワークの各レイヤにConvLSTMを配置し、トップからダウンまでの局所的な予測を行う。
論文 参考訳(メタデータ) (2022-08-15T06:28:34Z) - Overlooked Poses Actually Make Sense: Distilling Privileged Knowledge
for Human Motion Prediction [26.25110973770013]
人間の動作予測に関するこれまでの研究は、観測されたシーケンスと予測されるシーケンスの間のマッピング関係を構築するパターンに従っている。
本稿では,従来見過ごされていた人間のポーズを導入し,予測タスクを実装した新しい予測パターンを提案する。
これらのポーズは予測シーケンスの後に存在し、特権シーケンスを形成する。
論文 参考訳(メタデータ) (2022-08-02T08:13:43Z) - AutoCP: Automated Pipelines for Accurate Prediction Intervals [84.16181066107984]
本稿では、自動予測のための自動機械学習(Automatic Machine Learning for Conformal Prediction, AutoCP)というAutoMLフレームワークを提案する。
最高の予測モデルを選択しようとする慣れ親しんだAutoMLフレームワークとは異なり、AutoCPは、ユーザが指定したターゲットカバレッジ率を達成する予測間隔を構築する。
さまざまなデータセットでAutoCPをテストしたところ、ベンチマークアルゴリズムを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-24T23:13:11Z) - Predicting Temporal Sets with Deep Neural Networks [50.53727580527024]
本稿では,時間集合予測のためのディープニューラルネットワークに基づく統合解を提案する。
ユニークな視点は、セットレベルの共起グラフを構築することで要素関係を学ぶことである。
我々は,要素や集合の時間依存性を適応的に学習するアテンションベースのモジュールを設計する。
論文 参考訳(メタデータ) (2020-06-20T03:29:02Z) - Modeling Musical Onset Probabilities via Neural Distribution Learning [11.094116617743962]
音楽のオンセット検出は、TTE(Time-to-event)またはTSE(Time-since-event)予測タスクとして定式化することができる。
本稿では, 逐次密度予測モデルを導入して, オンセットの確率をモデル化する手法を提案する。
論文 参考訳(メタデータ) (2020-02-10T05:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。