論文の概要: TRAMS: Training-free Memory Selection for Long-range Language Modeling
- arxiv url: http://arxiv.org/abs/2310.15494v3
- Date: Wed, 20 Dec 2023 08:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:47:29.777494
- Title: TRAMS: Training-free Memory Selection for Long-range Language Modeling
- Title(参考訳): TRAMS:長距離言語モデリングのためのトレーニング不要メモリ選択
- Authors: Haofei Yu, Cunxiang Wang, Yue Zhang, Wei Bi
- Abstract要約: トランスフォーマーアーキテクチャは多くのAIモデルにとって不可欠だが、それでも長距離言語モデリングの課題に直面している。
本稿では,1つの単純なメトリックに基づいて注意計算に参加するトークンを選択する,TRAMS (training-free Memory Selection) と呼ばれるプラグイン・アンド・プレイ戦略を提案する。
- 参考スコア(独自算出の注目度): 36.190003235116635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture is crucial for numerous AI models, but it still
faces challenges in long-range language modeling. Though several specific
transformer architectures have been designed to tackle issues of long-range
dependencies, existing methods like Transformer-XL are plagued by a high
percentage of ineffective memories. In this study, we present a plug-and-play
strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens
participating in attention calculation based on one simple metric. This
strategy allows us to keep tokens that are likely to have a high attention
score with the current queries and ignore the other ones. We have tested our
approach on the word-level benchmark (WikiText-103) and the character-level
benchmark (enwik8), and the results indicate an improvement without having
additional training or adding additional parameters.
- Abstract(参考訳): トランスフォーマーアーキテクチャは多くのaiモデルにとって不可欠であるが、長距離言語モデリングの課題に直面している。
いくつかの特定のトランスフォーマーアーキテクチャは、長距離依存の問題に対処するために設計されているが、Transformer-XLのような既存のメソッドは、高頻度で非効率なメモリに悩まされている。
本研究では、1つの単純なメトリクスに基づいて注意計算に参加するトークンを選択できる「トレーニングフリーメモリ選択(tram)」と呼ばれるプラグ・アンド・プレイ戦略を提案する。
この戦略により、現在のクエリに高い注意点を持つ可能性のあるトークンを保持し、他のトークンを無視します。
我々は、単語レベルのベンチマーク(wikitext-103)と文字レベルのベンチマーク(enwik8)で、このアプローチをテストしました。
関連論文リスト
- Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - When to Use Efficient Self Attention? Profiling Text, Speech and Image
Transformer Variants [39.00433193973159]
本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。
効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。
そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
論文 参考訳(メタデータ) (2023-06-14T17:59:02Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Benchmarking down-scaled (not so large) pre-trained language models [0.0]
大規模なトランスフォーマーベースの言語モデルは、異なる数のステップと異なるバッチサイズのコーパスで事前学習されている。
形状パラメータとモデルサイズが異なる3つの事前学習目標を比較し、事前学習ステップの数とバッチサイズを変化させる。
私たちの実験では、NSP +BERTスタイルは、標準LM目標と同様に一貫して(RoBERTaスタイル)を上回ります。
論文 参考訳(メタデータ) (2021-05-11T09:01:04Z) - Adaptive Semiparametric Language Models [17.53604394786977]
本稿では,大規模パラメトリックニューラルネットワーク(トランスフォーマー)と非パラメトリックエピソードメモリコンポーネントを組み合わせた言語モデルを提案する。
単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-02-04T11:47:03Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。