論文の概要: UniMem: Towards a Unified View of Long-Context Large Language Models
- arxiv url: http://arxiv.org/abs/2402.03009v2
- Date: Mon, 19 Aug 2024 14:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:47:26.666493
- Title: UniMem: Towards a Unified View of Long-Context Large Language Models
- Title(参考訳): UniMem: 長期の大規模言語モデルの統一ビューを目指して
- Authors: Junjie Fang, Likai Tang, Hongzhe Bi, Yujia Qin, Si Sun, Zhenyu Li, Haolun Li, Yongjian Li, Xin Cong, Yankai Lin, Yukun Yan, Xiaodong Shi, Sen Song, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 長文処理は、大規模言語モデル(LLM)の適用性を制限する重要な能力である
我々は,LLMのメモリ拡張の観点から,既存の長文メソッドを再構成する統一フレームワークUniMemを紹介する。
我々は、UniMemに基づく16の既存手法を再フォーマットし、4つの代表的な手法を分析し、設計原則と強みを明らかにする。
これらの分析に基づいて、これらのアルゴリズムの強みを統合する革新的なアプローチであるUniMixを提案する。
- 参考スコア(独自算出の注目度): 82.22101047239669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context processing is a critical ability that constrains the applicability of large language models (LLMs). Although there exist various methods devoted to enhancing the long-context processing ability of LLMs, they are developed in an isolated manner and lack systematic analysis and integration of their strengths, hindering further developments. In this paper, we introduce UniMem, a Unified framework that reformulates existing long-context methods from the view of Memory augmentation of LLMs. Distinguished by its four core dimensions-Memory Management, Memory Writing, Memory Reading, and Memory Injection, UniMem empowers researchers to conduct systematic exploration of long-context methods. We re-formulate 16 existing methods based on UniMem and analyze four representative methods: Transformer-XL, Memorizing Transformer, RMT, and Longformer into equivalent UniMem forms to reveal their design principles and strengths. Based on these analyses, we propose UniMix, an innovative approach that integrates the strengths of these algorithms. Experimental results show that UniMix achieves superior performance in handling long contexts with significantly lower perplexity than baselines.
- Abstract(参考訳): 長文処理は、大規模言語モデル(LLM)の適用性を制限する重要な能力である。
LLMの長文処理能力を高めるための様々な方法が存在するが、それらは独立した方法で開発され、その強度の体系的分析や統合が欠如しており、さらなる発展を妨げる。
本稿では,LLMのメモリ拡張の観点から,既存の長文メソッドを再構成するUniMemを紹介する。
メモリ管理、メモリ書き込み、メモリリード、メモリインジェクションの4つのコアディメンテーションによって区別されるUniMemは、研究者に長期コンテキストメソッドの体系的な探索を行う権限を与える。
我々は、UniMemに基づく16の既存手法を再フォーマットし、Transformer-XL、Memorizing Transformer、RTT、Longformerの4つの代表的な方法を分析する。
これらの分析に基づいて、これらのアルゴリズムの強みを統合する革新的なアプローチであるUniMixを提案する。
実験結果から、UniMixはベースラインよりも難易度が著しく低い長いコンテキストを扱う上で、優れた性能を発揮することが示された。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Utilizing Large Language Models for Event Deconstruction to Enhance Multimodal Aspect-Based Sentiment Analysis [2.1329326061804816]
本稿では,イベント分解のためのLarge Language Models (LLMs)を導入し,マルチモーダル・アスペクト・ベース・センチメント分析(MABSA-RL)のための強化学習フレームワークを提案する。
実験の結果,MABSA-RLは2つのベンチマークデータセットにおいて既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:40:45Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - A Continual Development Methodology for Large-scale Multitask Dynamic ML
Systems [2.579908688646812]
提示された研究は、MLモデルをモジュラーおよびアンバウンドアーティファクトとして定義することで、新しいML開発方法論を導入することができるという直感に基づいている。
マルチタスクMLモデルを生成するための新しい手法を,拡張とマルチタスクのシーケンスとして定義する。
これにより、サイズと計算コストが向上し、アート品質の状態を達成した124のイメージ分類タスクを共同で解決できるMLモデルが生成される。
論文 参考訳(メタデータ) (2022-09-15T14:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。