論文の概要: GLIMMER: generalized late-interaction memory reranker
- arxiv url: http://arxiv.org/abs/2306.10231v1
- Date: Sat, 17 Jun 2023 01:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 23:33:41.960266
- Title: GLIMMER: generalized late-interaction memory reranker
- Title(参考訳): GLIMMER: 一般化された遅延動作メモリリランカ
- Authors: Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Sumit Sanghai,
William W. Cohen, Joshua Ainslie
- Abstract要約: メモリ拡張は、外部情報を言語モデルに組み込むための強力なアプローチである。
LUMENはメモリを部分的にプリコンプリートし、より小さなライブエンコーダでメモリ表現を更新する。
GLIMMERは,1) メモリ上に浅い再ランカを適用して,高速で検索品質を劇的に向上させることにより,強力なメモリ表現への自由アクセスを活用できる。
- 参考スコア(独自算出の注目度): 29.434777627686692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory-augmentation is a powerful approach for efficiently incorporating
external information into language models, but leads to reduced performance
relative to retrieving text. Recent work introduced LUMEN, a memory-retrieval
hybrid that partially pre-computes memory and updates memory representations on
the fly with a smaller live encoder.
We propose GLIMMER, which improves on this approach through 1) exploiting
free access to the powerful memory representations by applying a shallow
reranker on top of memory to drastically improve retrieval quality at low cost,
and 2) incorporating multi-task training to learn a general and higher quality
memory and live encoder. GLIMMER achieves strong gains in performance at faster
speeds compared to LUMEN and FiD on the KILT benchmark of knowledge-intensive
tasks.
- Abstract(参考訳): メモリオーグメンテーションは、外部情報を言語モデルに効率的に組み込むための強力なアプローチであるが、テキスト検索に比べて性能が低下する。
LUMENはメモリを部分的にプリコンプリートし、より小さなライブエンコーダでメモリ表現を更新する。
このアプローチを改良したGLIMMERを提案する。
1) メモリ上に浅い再ランカを適用して強力なメモリ表現への自由アクセスを利用して、低コストで検索品質を大幅に向上させ、
2) 汎用的で高品質なメモリとライブエンコーダを学ぶためのマルチタスクトレーニングの導入。
GLIMMERは、知識集約型タスクのKILTベンチマークにおけるLUMENやFiDと比較して、高速な性能向上を実現している。
関連論文リスト
- LLM in a flash: Efficient Large Language Model Inference with Limited
Memory [20.515855044180295]
大規模言語モデル(LLM)は現代の自然言語処理の中心であり、様々なタスクにおいて例外的なパフォーマンスを提供する。
本稿では,利用可能なDRAM容量を超えるLLMを効率的に動作させるという課題に対処する。
本手法は,フラッシュメモリの特性を考慮した推論コストモデルの構築を含む。
論文 参考訳(メタデータ) (2023-12-12T18:57:08Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - MEMORY-VQ: Compression for Tractable Internet-Scale Memory [45.7528997281282]
LUMENのようなメモリベースのメソッドは、検索されたパスのトークン表現を事前に計算し、推論を大幅に高速化する。
本稿では,メモリ拡張モデルのストレージ要求を,性能を犠牲にすることなく低減する新しい方法であるMEMORY-VQを提案する。
論文 参考訳(メタデータ) (2023-08-28T21:11:18Z) - In-context Autoencoder for Context Compression in a Large Language Model [74.9807417009054]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory [72.36736686941671]
本稿では,検索拡張生成モデルを改善するための新しいフレームワーク,Selfmemを提案する。
Selfmemは、検索拡張ジェネレータを反復的に使用して、無制限のメモリプールを生成し、メモリセレクタを使用して、続く生成ラウンドの1つの出力をメモリとして選択する。
我々は,3つの異なるテキスト生成タスクにおける自己メモの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-03T21:40:54Z) - Pre-computed memory or on-the-fly encoding? A hybrid approach to
retrieval augmentation makes the most of your compute [23.85786594315147]
フュージョン・イン・デコーダ(Fusion-in-Decoder)は強力な技術であり、様々な知識集約的なタスクにアートの状態を設定する。
テキストコーパスをメモリにプリエンコードし、密度の高い表現を直接取得することで、このコストを回避する作業もある。
両極間のハイブリッドであるLUMENを提案し,検索表現の大部分を事前計算し,符号化をオンザフライで完了させる。
LUMENは、FiDよりもはるかに安価で、複数の質問応答タスクにおいて純粋メモリを著しく上回り、任意の計算予算において両者を上回ります。
論文 参考訳(メタデータ) (2023-01-25T07:55:45Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。