論文の概要: UniMem: Towards a Unified View of Long-Context Large Language Models
- arxiv url: http://arxiv.org/abs/2402.03009v1
- Date: Mon, 5 Feb 2024 13:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:11:41.050613
- Title: UniMem: Towards a Unified View of Long-Context Large Language Models
- Title(参考訳): UniMem: 長期の大規模言語モデルの統一ビューを目指して
- Authors: Junjie Fang, Likai Tang, Hongzhe Bi, Yujia Qin, Si Sun, Zhenyu Li,
Haolun Li, Yongjian Li, Xin Cong, Yukun Yan, Xiaodong Shi, Sen Song, Yankai
Lin, Zhiyuan Liu, Maosong Sun
- Abstract要約: 長文処理は、大きな言語モデルの適用性を制限する重要な能力である。
既存の長文メソッドを再構成する統一フレームワークであるUniMemを紹介する。
我々はこれらのアルゴリズムの強みを統合する革新的なアプローチであるUniMixを提案する。
- 参考スコア(独自算出の注目度): 83.91692875807541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context processing is a critical ability that constrains the
applicability of large language models. Although there exist various methods
devoted to enhancing the long-context processing ability of large language
models (LLMs), they are developed in an isolated manner and lack systematic
analysis and integration of their strengths, hindering further developments. In
this paper, we introduce UniMem, a unified framework that reformulates existing
long-context methods from the view of memory augmentation of LLMs. UniMem is
characterized by four key dimensions: Memory Management, Memory Writing, Memory
Reading, and Memory Injection, providing a systematic theory for understanding
various long-context methods. We reformulate 16 existing methods based on
UniMem and analyze four representative methods: Transformer-XL, Memorizing
Transformer, RMT, and Longformer into equivalent UniMem forms to reveal their
design principles and strengths. Based on these analyses, we propose UniMix, an
innovative approach that integrates the strengths of these algorithms.
Experimental results show that UniMix achieves superior performance in handling
long contexts with significantly lower perplexity than baselines.
- Abstract(参考訳): 長文処理は、大きな言語モデルの適用性を制限する重要な能力である。
大規模言語モデル(llm)の長期文脈処理能力を向上させるための様々な方法が存在するが、それらは孤立した方法で開発され、系統的な分析や強みの統合が欠如しており、さらなる発展を妨げている。
本稿では,LLMのメモリ拡張の観点から,既存の長文メソッドを再構成する統一フレームワークUniMemを紹介する。
UniMemは、メモリ管理、メモリ書き込み、メモリ読み込み、メモリ注入の4つの重要な側面によって特徴づけられ、様々な長文メソッドを理解するための体系的な理論を提供する。
我々は,UniMemに基づく16の既存手法を再構成し,その設計原理と強みを明らかにするために,Transformer-XL,Memorizing Transformer,RTT,Longformerの4つの代表的な方法を分析する。
これらの分析に基づいて,これらのアルゴリズムの強みを統合する革新的な手法であるunimixを提案する。
実験の結果、unimixは、ベースラインよりもかなり低いパープレキシティで長いコンテキストを扱うのに優れた性能を発揮することがわかった。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Utilizing Large Language Models for Event Deconstruction to Enhance Multimodal Aspect-Based Sentiment Analysis [2.1329326061804816]
本稿では,イベント分解のためのLarge Language Models (LLMs)を導入し,マルチモーダル・アスペクト・ベース・センチメント分析(MABSA-RL)のための強化学習フレームワークを提案する。
実験の結果,MABSA-RLは2つのベンチマークデータセットにおいて既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:40:45Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - A Continual Development Methodology for Large-scale Multitask Dynamic ML
Systems [2.579908688646812]
提示された研究は、MLモデルをモジュラーおよびアンバウンドアーティファクトとして定義することで、新しいML開発方法論を導入することができるという直感に基づいている。
マルチタスクMLモデルを生成するための新しい手法を,拡張とマルチタスクのシーケンスとして定義する。
これにより、サイズと計算コストが向上し、アート品質の状態を達成した124のイメージ分類タスクを共同で解決できるMLモデルが生成される。
論文 参考訳(メタデータ) (2022-09-15T14:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。