論文の概要: Simple Local Attentions Remain Competitive for Long-Context Tasks
- arxiv url: http://arxiv.org/abs/2112.07210v1
- Date: Tue, 14 Dec 2021 07:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 01:57:05.462715
- Title: Simple Local Attentions Remain Competitive for Long-Context Tasks
- Title(参考訳): ローカルアテンションは長期タスクに競争力を持ち続ける
- Authors: Wenhan Xiong, Barlas O\u{g}uz, Anchit Gupta, Xilun Chen, Diana
Liskovich, Omer Levy, Wen-tau Yih, Yashar Mehdad
- Abstract要約: 多くのNLPタスクは、事前訓練されたモデルの長さ制限を超える長いコンテキストを処理する必要がある。
これらのモデルをより長いテキストシーケンスにスケールするために、多くの効率的な長距離アテンション変種が提案されている。
各注意変種について、同一の長docコーパスを用いて大規模モデルを事前訓練し、それらのモデルを現実世界の長コンテキストタスクのために微調整する。
- 参考スコア(独自算出の注目度): 32.785459927278616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many NLP tasks require processing long contexts beyond the length limit of
pretrained models. In order to scale these models to longer text sequences,
many efficient long-range attention variants have been proposed. Despite the
abundance of research along this direction, it is still difficult to gauge the
relative effectiveness of these models in practical use cases, e.g., if we
apply these models following the pretrain-and-finetune paradigm. In this work,
we aim to conduct a thorough analysis of these emerging models with large-scale
and controlled experiments. For each attention variant, we pretrain large-size
models using the same long-doc corpus and then finetune these models for
real-world long-context tasks. Our findings reveal pitfalls of an existing
widely-used long-range benchmark and show none of the tested efficient
attentions can beat a simple local window attention under standard pretraining
paradigms. Further analysis on local attention variants suggests that even the
commonly used attention-window overlap is not necessary to achieve good
downstream results -- using disjoint local attentions, we are able to build a
simpler and more efficient long-doc QA model that matches the performance of
Longformer~\citep{longformer} with half of its pretraining compute.
- Abstract(参考訳): 多くのNLPタスクは、事前訓練されたモデルの長さ制限を超える長いコンテキストを処理する必要がある。
これらのモデルをより長いテキストシーケンスに拡張するために、多くの効率的な長距離注意型が提案されている。
この方向に関する研究が豊富であるにもかかわらず、これらのモデルが実際のユースケースにおいて相対的有効性を測ることは、例えば、事前訓練と精細化のパラダイムに従ってこれらのモデルを適用する場合、依然として困難である。
本研究では,これらのモデルについて,大規模かつ制御された実験により徹底的に解析することを目的とする。
各注意変種について、同一の長docコーパスを用いて大規模モデルを事前訓練し、それらのモデルを現実世界の長コンテキストタスクのために微調整する。
以上の結果から,既存の長距離ベンチマークの落とし穴が明らかとなり,標準プリトレーニングパラダイム下では,効率的な注意力が単純なローカルウインドウの注意力を上回らないことが判明した。
ローカルアテンションの変種に関するさらなる分析は、ダウンストリームの結果を得るのによく使われるアテンション・ウインドウの重複でさえ必要ないことを示唆している。不整合なローカルアテンションを用いて、Longformer~\citep{longformer}の性能と事前訓練された計算の半分に一致するよりシンプルで効率的なロングドックQAモデルを構築することができる。
関連論文リスト
- Timer: Transformers for Time Series Analysis at Scale [87.9808714449511]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model
From Scratch? [0.0]
我々はLongformerモデルを法的なデータに基づいて効率的なRTDタスクで訓練し、より少ない計算量で効率的なLMを事前学習できることを実証する。
私たちは、小さなモデルとベースモデルの両方が、ドメイン内BillSumとドメイン外タスクのベースラインを上回っていることに気付きました。
論文 参考訳(メタデータ) (2022-11-30T16:09:20Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。
私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文 参考訳(メタデータ) (2022-04-14T13:23:57Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - SimpleTron: Eliminating Softmax from Attention Computation [68.8204255655161]
そこで本研究では,ドット積のペアワイズアテンション層がモデル性能に冗長であることを示す。
我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意評価よりも優れる、シンプルで高速な代替案を提案する。
論文 参考訳(メタデータ) (2021-11-23T17:06:01Z) - On Model Calibration for Long-Tailed Object Detection and Instance
Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。
バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:57:20Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。