論文の概要: Poolingformer: Long Document Modeling with Pooling Attention
- arxiv url: http://arxiv.org/abs/2105.04371v1
- Date: Mon, 10 May 2021 13:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 18:26:50.006780
- Title: Poolingformer: Long Document Modeling with Pooling Attention
- Title(参考訳): Poolingformer:pooling Attentionによる長期ドキュメントモデリング
- Authors: Hang Zhang, Yeyun Gong, Yelong Shen, Weisheng Li, Jiancheng Lv, Nan
Duan, Weizhu Chen
- Abstract要約: 長い文書モデリングのための2段階のアテンションスキーマである poolingformer を導入する。
最初のレベルは、より小さなスライディングウィンドウパターンを使用して、隣人からの情報を集約する。
その第2レベルは、より大きなウィンドウを使用して受容フィールドを増加させ、計算コストとメモリ消費の両方を減らすことに注意を向けている。
- 参考スコア(独自算出の注目度): 56.739210646924725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a two-level attention schema, Poolingformer, for
long document modeling. Its first level uses a smaller sliding window pattern
to aggregate information from neighbors. Its second level employs a larger
window to increase receptive fields with pooling attention to reduce both
computational cost and memory consumption. We first evaluate Poolingformer on
two long sequence QA tasks: the monolingual NQ and the multilingual TyDi QA.
Experimental results show that Poolingformer sits atop three official
leaderboards measured by F1, outperforming previous state-of-the-art models by
1.9 points (79.8 vs. 77.9) on NQ long answer, 1.9 points (79.5 vs. 77.6) on
TyDi QA passage answer, and 1.6 points (67.6 vs. 66.0) on TyDi QA minimal
answer. We further evaluate Poolingformer on a long sequence summarization
task. Experimental results on the arXiv benchmark continue to demonstrate its
superior performance.
- Abstract(参考訳): 本稿では,長期文書モデリングのための2レベルアテンションスキーマであるPoolingformerを提案する。
最初のレベルは、より小さなスライディングウィンドウパターンを使用して、隣人からの情報を集約する。
その第2レベルは、より大きなウィンドウを使用して受容フィールドを増加させ、計算コストとメモリ消費の両方を減らすことに注意を向けている。
我々はまず,モノリンガルNQとマルチリンガルTyDiQAという2つの長いシーケンスQAタスクでPoolingformerを評価する。
実験の結果、PoolingformerはF1によって測定された3つの公式リーダーボードの上に座っており、NQ長解では1.9ポイント(79.8対77.9)、TyDi QA通過解では1.9ポイント(79.5対77.6)、TyDi QA最小解では1.6ポイント(67.6対66.0)を上回っている。
さらに,長いシーケンス要約タスクにおける poolingformer の評価を行う。
arXivベンチマークの実験結果は、その優れた性能を示し続けている。
関連論文リスト
- The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - HiPool: Modeling Long Documents Using Graph Neural Networks [24.91040673099863]
自然言語処理(NLP)の長いシーケンスは難しい問題である。
最近の事前学習言語モデルは、多くのNLPタスクにおいて満足な性能を達成する。
我々は,最大53kのサンプルと平均トークンの長さ4034のデータセットを合計6つ集めて,新たな挑戦的ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-05-05T06:58:24Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Efficient Constituency Parsing by Pointing [21.395573911155495]
本稿では,解析問題を一連のポインティングタスクにキャストする新しい選挙区解析モデルを提案する。
我々のモデルは効率的なトップダウンデコーディングをサポートしており、我々の学習目的は、高価なCKY推論に頼ることなく、構造的一貫性を強制することができる。
論文 参考訳(メタデータ) (2020-06-24T08:29:09Z) - Gestalt: a Stacking Ensemble for SQuAD2.0 [0.0]
本稿では,文脈文中の質問に対する正しい回答を見つけ出し,提示する深層学習システムを提案する。
我々のゴールは、各アンサンブルで最高のモデルを上回る異種SQuAD2.0モデルのアンサンブルを学習することである。
論文 参考訳(メタデータ) (2020-04-02T08:09:22Z) - Strip Pooling: Rethinking Spatial Pooling for Scene Parsing [161.7521770950933]
長いが狭いカーネル、すなわち1xNまたはNx1を考えるストリッププーリングを導入する。
提案するストリッププール性能と従来の空間プール技術との比較を行った。
両方の新しいプールベースのデザインは軽量であり、既存のシーン解析ネットワークにおいて効率的なプラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2020-03-30T10:40:11Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - HintPose [6.769249322404058]
既存のポーズ推定器に2つのアイデア、例えばキューと繰り返し補正を導入する。
76.2 mAPを単一モデルとして,77.3 mAPをテストデフセットのアンサンブルとして達成した。
論文 参考訳(メタデータ) (2020-03-04T16:29:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。