論文の概要: LaMemo: Language Modeling with Look-Ahead Memory
- arxiv url: http://arxiv.org/abs/2204.07341v1
- Date: Fri, 15 Apr 2022 06:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 15:25:48.700976
- Title: LaMemo: Language Modeling with Look-Ahead Memory
- Title(参考訳): LaMemo:ルックアヘッドメモリによる言語モデリング
- Authors: Haozhe Ji, Rongsheng Zhang, Zhenyu Yang, Zhipeng Hu, Minlie Huang
- Abstract要約: 右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 50.6248714811912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Transformers with fully connected self-attentions are powerful to
model long-term dependencies, they are struggling to scale to long texts with
thousands of words in language modeling. One of the solutions is to equip the
model with a recurrence memory. However, existing approaches directly reuse
hidden states from the previous segment that encodes contexts in a
uni-directional way. As a result, this prohibits the memory to dynamically
interact with the current context that provides up-to-date information for
token prediction. To remedy this issue, we propose Look-Ahead Memory (LaMemo)
that enhances the recurrence memory by incrementally attending to the
right-side tokens, and interpolating with the old memory states to maintain
long-term information in the history. LaMemo embraces bi-directional attention
and segment recurrence with an additional computation overhead only linearly
proportional to the memory length. Experiments on widely used language modeling
benchmarks demonstrate its superiority over the baselines equipped with
different types of memory.
- Abstract(参考訳): 完全に接続された自己アテンションを持つトランスフォーマーは、長期的な依存関係をモデル化するのに強力だが、言語モデリングにおいて数千の単語を持つ長いテキストにスケールするのに苦労している。
解決策の1つは、モデルを繰り返しメモリに装備することである。
しかし、既存のアプローチは、一方向の方法でコンテキストをエンコードする前のセグメントから隠された状態を直接再利用する。
結果として、これはメモリがトークン予測のために最新の情報を提供する現在のコンテキストと動的に相互作用することを禁止します。
この問題を解決するために,右辺のトークンに漸進的に参画し,古いメモリ状態と補間して履歴の長期的情報を維持することで,再帰記憶を向上させるLook-Ahead Memory (LaMemo)を提案する。
LaMemoは、メモリ長に比例した計算オーバーヘッドを追加して、双方向の注意とセグメントの繰り返しを受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なるタイプのメモリを備えたベースラインよりも優れていることを示している。
関連論文リスト
- HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations [39.05338079159942]
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。
COMEDYの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
論文 参考訳(メタデータ) (2024-02-19T09:19:50Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory [72.36736686941671]
本稿では,検索拡張生成モデルを改善するための新しいフレームワーク,Selfmemを提案する。
Selfmemは、検索拡張ジェネレータを反復的に使用して、無制限のメモリプールを生成し、メモリセレクタを使用して、続く生成ラウンドの1つの出力をメモリとして選択する。
我々は,3つの異なるテキスト生成タスクにおける自己メモの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-03T21:40:54Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Memory-Based Semantic Parsing [79.48882899104997]
文脈依存型セマンティック解析のためのメモリベースモデルを提案する。
逐次的ユーザ発話の累積的意味を維持することにより,メモリ管理を行うコンテキストメモリコントローラを学習する。
論文 参考訳(メタデータ) (2021-09-07T16:15:13Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。