論文の概要: HMT: Hierarchical Memory Transformer for Long Context Language Processing
- arxiv url: http://arxiv.org/abs/2405.06067v1
- Date: Thu, 9 May 2024 19:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:26:24.680034
- Title: HMT: Hierarchical Memory Transformer for Long Context Language Processing
- Title(参考訳): HMT:長期言語処理のための階層型メモリ変換器
- Authors: Zifan He, Zongyue Qin, Neha Prakriya, Yizhou Sun, Jason Cong,
- Abstract要約: Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
- 参考スコア(独自算出の注目度): 35.730941605490194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based large language models (LLM) have been widely used in language processing applications. However, most of them restrict the context window that permits the model to attend to every token in the inputs. Previous works in recurrent models can memorize past tokens to enable unlimited context and maintain effectiveness. However, they have "flat" memory architectures, which have limitations in selecting and filtering information. Since humans are good at learning and self-adjustment, we speculate that imitating brain memory hierarchy is beneficial for model memorization. We propose the Hierarchical Memory Transformer (HMT), a novel framework that enables and improves models' long-context processing ability by imitating human memorization behavior. Leveraging memory-augmented segment-level recurrence, we organize the memory hierarchy by preserving tokens from early input token segments, passing memory embeddings along the sequence, and recalling relevant information from history. Evaluating general language modeling (Wikitext-103, PG-19) and question-answering tasks (PubMedQA), we show that HMT steadily improves the long-context processing ability of context-constrained and long-context models. With an additional 0.5% - 2% of parameters, HMT can easily plug in and augment future LLMs to handle long context effectively. Our code is open-sourced on Github: https://github.com/OswaldHe/HMT-pytorch.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、言語処理アプリケーションで広く使われている。
しかしながら、ほとんどの場合、入力中のすべてのトークンにモデルが参加できるように、コンテキストウィンドウを制限します。
繰り返しモデルにおける以前の作業は、過去のトークンを記憶して、無制限のコンテキストを可能にし、有効性を維持することができる。
しかし、それらは「フラット」なメモリアーキテクチャを持ち、情報の選択とフィルタリングに制限がある。
人間は学習と自己調整に長けており、脳の記憶階層を模倣することはモデル記憶にとって有益であると推測する。
本稿では,人間の記憶動作を模倣することで,モデルの長文処理能力を向上する新しいフレームワークである階層記憶変換器(HMT)を提案する。
メモリ拡張セグメントレベルの再実行を活用して、初期入力トークンセグメントからトークンを保存し、シーケンスに沿ってメモリ埋め込みを渡し、履歴から関連する情報をリコールすることで、メモリ階層を編成する。
一般言語モデリング (Wikitext-103, PG-19) と質問応答タスク (PubMedQA) の評価により, HMT は文脈制約および長文モデルの長文処理能力を着実に改善することを示した。
パラメータの0.5% - 2%を追加することで、HMTは簡単にプラグインでき、将来のLLMを拡張して、長いコンテキストを効果的に扱うことができる。
私たちのコードはGithubでオープンソース化されています。
関連論文リスト
- Titans: Learning to Memorize at Test Time [20.12643072017223]
歴史的文脈を記憶するために学習するニューラルな長期記憶モジュールを提案する。
このニューラルメモリは高速な推論を維持しつつ、高速な並列化可能なトレーニングの利点があることが示される。
我々は、Titansと呼ばれる新しいアーキテクチャのファミリーを紹介し、このアーキテクチャにメモリを効果的に組み込む方法に対処する3つのバリエーションを提示します。
論文 参考訳(メタデータ) (2024-12-31T22:32:03Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - Extending Memory for Language Modelling [0.0]
無限に長いシーケンスから学習するためにLong Term Memory Network (LTM)を導入する。
LTMは現在の入力に優先順位を与え、高いインパクトを与える。
我々はLTMを長期記憶を必要とする他の言語モデルと比較する。
論文 参考訳(メタデータ) (2023-05-19T06:30:19Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。