論文の概要: Do Long-Range Language Models Actually Use Long-Range Context?
- arxiv url: http://arxiv.org/abs/2109.09115v1
- Date: Sun, 19 Sep 2021 12:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:37:48.865163
- Title: Do Long-Range Language Models Actually Use Long-Range Context?
- Title(参考訳): ロングランジ言語モデルは実際にロングランジコンテキストを使用するか?
- Authors: Simeng Sun, Kalpesh Krishna, Andrew Mattarella-Micke, Mohit Iyyer
- Abstract要約: 言語モデルは一般的に、短絡した入力シーケンスに基づいて訓練される。
近年の自己注意の効率向上に向けた取り組みは、長距離トランスフォーマー言語モデルの普及につながっている。
- 参考スコア(独自算出の注目度): 27.084888397778823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models are generally trained on short, truncated input sequences,
which limits their ability to use discourse-level information present in
long-range context to improve their predictions. Recent efforts to improve the
efficiency of self-attention have led to a proliferation of long-range
Transformer language models, which can process much longer sequences than
models of the past. However, the ways in which such models take advantage of
the long-range context remain unclear. In this paper, we perform a fine-grained
analysis of two long-range Transformer language models (including the
\emph{Routing Transformer}, which achieves state-of-the-art perplexity on the
PG-19 long-sequence LM benchmark dataset) that accept input sequences of up to
8K tokens. Our results reveal that providing long-range context (i.e., beyond
the previous 2K tokens) to these models only improves their predictions on a
small set of tokens (e.g., those that can be copied from the distant context)
and does not help at all for sentence-level prediction tasks. Finally, we
discover that PG-19 contains a variety of different document types and domains,
and that long-range context helps most for literary novels (as opposed to
textbooks or magazines).
- Abstract(参考訳): 言語モデルは一般的に、短命で断続的な入力シーケンスで訓練され、長距離文脈に存在する談話レベルの情報を使用して予測を改善する能力が制限される。
近年の自己注意の効率向上に向けた取り組みは、過去のモデルよりもはるかに長いシーケンスを処理できる長距離トランスフォーマー言語モデルの普及につながっている。
しかし、そのようなモデルが長距離の文脈を利用する方法はまだ不明である。
本稿では,最大8Kトークンの入力シーケンスを受信する2つの長距離トランスフォーマー言語モデル(PG-19長周期LMベンチマークデータセットにおける最先端のパープレキシティを実現する \emph{Routing Transformer} を含む)のきめ細かい解析を行う。
我々の結果は、これらのモデルに長距離コンテキスト(例えば、以前の2Kトークンを超えて)を提供することで、小さなトークンのセット(例えば、遠くのコンテキストからコピーできるもの)での予測を改善するだけで、文レベルの予測タスクには役立ちません。
最後に,PG-19 には様々な文書タイプや領域があり,長期的文脈は(教科書や雑誌とは対照的に)文学小説に最も役立ちます。
関連論文リスト
- Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - YaRN: Efficient Context Window Extension of Large Language Models [1.024113475677323]
RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。
本稿では,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高いYarnを提案する。
LLaMAモデルは,従来の事前学習が許すよりもはるかに長い文脈長を効果的に活用し,外挿することができることを示す。
論文 参考訳(メタデータ) (2023-08-31T18:18:07Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - HiPool: Modeling Long Documents Using Graph Neural Networks [24.91040673099863]
自然言語処理(NLP)の長いシーケンスは難しい問題である。
最近の事前学習言語モデルは、多くのNLPタスクにおいて満足な性能を達成する。
我々は,最大53kのサンプルと平均トークンの長さ4034のデータセットを合計6つ集めて,新たな挑戦的ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-05-05T06:58:24Z) - Finding the Needle in a Haystack: Unsupervised Rationale Extraction from
Long Text Classifiers [20.10172411803626]
本稿では,RoBERTaを文的に適用し,トークンレベルで有意な有理を抽出する構成的ソフトアテンションアーキテクチャを提案する。
本手法は,感情分類データセットに基づいて,Longformer駆動のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-03-14T15:45:35Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Modeling Context With Linear Attention for Scalable Document-Level
Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文 参考訳(メタデータ) (2022-10-16T03:41:50Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。