論文の概要: UniMem: Towards a Unified View of Long-Context Large Language Models
- arxiv url: http://arxiv.org/abs/2402.03009v1
- Date: Mon, 5 Feb 2024 13:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:11:41.050613
- Title: UniMem: Towards a Unified View of Long-Context Large Language Models
- Title(参考訳): UniMem: 長期の大規模言語モデルの統一ビューを目指して
- Authors: Junjie Fang, Likai Tang, Hongzhe Bi, Yujia Qin, Si Sun, Zhenyu Li,
Haolun Li, Yongjian Li, Xin Cong, Yukun Yan, Xiaodong Shi, Sen Song, Yankai
Lin, Zhiyuan Liu, Maosong Sun
- Abstract要約: 長文処理は、大きな言語モデルの適用性を制限する重要な能力である。
既存の長文メソッドを再構成する統一フレームワークであるUniMemを紹介する。
我々はこれらのアルゴリズムの強みを統合する革新的なアプローチであるUniMixを提案する。
- 参考スコア(独自算出の注目度): 83.91692875807541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context processing is a critical ability that constrains the
applicability of large language models. Although there exist various methods
devoted to enhancing the long-context processing ability of large language
models (LLMs), they are developed in an isolated manner and lack systematic
analysis and integration of their strengths, hindering further developments. In
this paper, we introduce UniMem, a unified framework that reformulates existing
long-context methods from the view of memory augmentation of LLMs. UniMem is
characterized by four key dimensions: Memory Management, Memory Writing, Memory
Reading, and Memory Injection, providing a systematic theory for understanding
various long-context methods. We reformulate 16 existing methods based on
UniMem and analyze four representative methods: Transformer-XL, Memorizing
Transformer, RMT, and Longformer into equivalent UniMem forms to reveal their
design principles and strengths. Based on these analyses, we propose UniMix, an
innovative approach that integrates the strengths of these algorithms.
Experimental results show that UniMix achieves superior performance in handling
long contexts with significantly lower perplexity than baselines.
- Abstract(参考訳): 長文処理は、大きな言語モデルの適用性を制限する重要な能力である。
大規模言語モデル(llm)の長期文脈処理能力を向上させるための様々な方法が存在するが、それらは孤立した方法で開発され、系統的な分析や強みの統合が欠如しており、さらなる発展を妨げている。
本稿では,LLMのメモリ拡張の観点から,既存の長文メソッドを再構成する統一フレームワークUniMemを紹介する。
UniMemは、メモリ管理、メモリ書き込み、メモリ読み込み、メモリ注入の4つの重要な側面によって特徴づけられ、様々な長文メソッドを理解するための体系的な理論を提供する。
我々は,UniMemに基づく16の既存手法を再構成し,その設計原理と強みを明らかにするために,Transformer-XL,Memorizing Transformer,RTT,Longformerの4つの代表的な方法を分析する。
これらの分析に基づいて,これらのアルゴリズムの強みを統合する革新的な手法であるunimixを提案する。
実験の結果、unimixは、ベースラインよりもかなり低いパープレキシティで長いコンテキストを扱うのに優れた性能を発揮することがわかった。
関連論文リスト
- Online Adaptation of Language Models with a Memory of Amortized Contexts [86.91360597169563]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
本稿では,新しい文書から情報を圧縮・抽出するメモリ拡張手法を提案する。
実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - RecallM: An Adaptable Memory Mechanism with Temporal Understanding for
Large Language Models [3.9770715318303353]
RecallMは、適応可能で拡張可能な長期記憶機構を備えた大規模言語モデルを提供するための新しいアーキテクチャである。
RecallM は,長期記憶に格納された知識を更新するためのベクトルデータベースよりも 4 倍有効であることを示す。
また、RecallMは、一般的な質問応答およびコンテキスト内学習タスクにおいて、競合性能を示すことを示した。
論文 参考訳(メタデータ) (2023-07-06T02:51:54Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - A Continual Development Methodology for Large-scale Multitask Dynamic ML
Systems [2.579908688646812]
提示された研究は、MLモデルをモジュラーおよびアンバウンドアーティファクトとして定義することで、新しいML開発方法論を導入することができるという直感に基づいている。
マルチタスクMLモデルを生成するための新しい手法を,拡張とマルチタスクのシーケンスとして定義する。
これにより、サイズと計算コストが向上し、アート品質の状態を達成した124のイメージ分類タスクを共同で解決できるMLモデルが生成される。
論文 参考訳(メタデータ) (2022-09-15T14:36:17Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。