論文の概要: InfiniPot: Infinite Context Processing on Memory-Constrained LLMs
- arxiv url: http://arxiv.org/abs/2410.01518v1
- Date: Wed, 2 Oct 2024 13:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:14:45.749271
- Title: InfiniPot: Infinite Context Processing on Memory-Constrained LLMs
- Title(参考訳): InfiniPot: メモリ制約 LLM 上の無限コンテキスト処理
- Authors: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang,
- Abstract要約: InfiniPotは、トレーニング済みの大規模言語モデルで広範囲のシーケンスを効率的に管理できるように設計された、新しいKVキャッシュ制御フレームワークである。
InfiniPotは、将来のコンテキストにアクセスしなくても、重要なデータを効果的に維持する。
この研究は、広範囲の現実世界のシナリオに適用できるようにするための大きな言語モデルの実現に向けた大きな進歩を示している。
- 参考スコア(独自算出の注目度): 17.111422610001227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handling long input contexts remains a significant challenge for Large Language Models (LLMs), particularly in resource-constrained environments such as mobile devices. Our work aims to address this limitation by introducing InfiniPot, a novel KV cache control framework designed to enable pre-trained LLMs to manage extensive sequences within fixed memory constraints efficiently, without requiring additional training. InfiniPot leverages Continual Context Distillation (CCD), an iterative process that compresses and retains essential information through novel importance metrics, effectively maintaining critical data even without access to future context. Our comprehensive evaluations indicate that InfiniPot significantly outperforms models trained for long contexts in various NLP tasks, establishing its efficacy and versatility. This work represents a substantial advancement toward making LLMs applicable to a broader range of real-world scenarios.
- Abstract(参考訳): 長い入力コンテキストを扱うことは、特にモバイルデバイスのようなリソース制約のある環境では、LLM(Large Language Models)にとって重要な課題である。
InfiniPotは、事前学習されたLLMが追加のトレーニングを必要とせず、固定メモリ制約内で広範囲のシーケンスを効率的に管理できるように設計された新しいKVキャッシュ制御フレームワークである。
InfiniPotは連続的コンテキスト蒸留(Continuous Context Distillation, CCD)を利用する。これは、新しい重要なメトリクスを通じて重要な情報を圧縮し、保持する反復プロセスであり、将来のコンテキストにアクセスしなくても、重要なデータを効果的に維持する。
総合評価の結果、InfiniPotは様々なNLPタスクにおいて長いコンテキストで訓練されたモデルよりも優れており、その有効性と汎用性を確立していることがわかった。
この研究は、LLMをより広い範囲の現実世界のシナリオに適用できるようにするための大きな進歩を示している。
関連論文リスト
- ReAttention: Training-Free Infinite Context with Finite Attention Scope [65.91272939057592]
LLM(Large Language Models)の長期コンテキスト能力は大きなブレークスルーをもたらしたが、サポート対象の最大コンテキスト長は、実用的アプリケーションを制限する重要なボトルネックのままである。
本稿では,bftextReAttentionを提案する。bftextReAttentionは,自己アテンション機構をベースとしたLLMが,十分なメモリリソースの下で有限の注意範囲を持つ無限コンテキストをサポート可能な学習自由な手法である。
本稿では,LongBench,L-Eval,InfiniteBenchにおけるReAttentionの性能を検証し,従来の手法と同等であることを示す。
論文 参考訳(メタデータ) (2024-07-21T14:23:37Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management [0.5899781520375794]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる優れたパフォーマンスを示す。
長いコンテンツを生成するための推論を提供することは、過渡状態の巨大なメモリフットプリントのために課題となる。
InfiniGenは、長文生成に適した新しいKVキャッシュ管理フレームワークである。
論文 参考訳(メタデータ) (2024-06-28T07:41:26Z) - On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。
LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。
データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文 参考訳(メタデータ) (2024-03-03T03:27:07Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Online Continual Learning Without the Storage Constraint [67.66235695269839]
我々は、kNN分類器を固定された事前訓練された特徴抽出器とともに継続的に更新する簡単なアルゴリズムを提案する。
高速に変化するストリームに適応し、安定性のギャップをゼロにし、小さな計算予算内で動作し、機能のみを格納することで、ストレージ要件を低くすることができる。
2つの大規模オンライン連続学習データセットにおいて、既存の手法を20%以上の精度で上回ることができる。
論文 参考訳(メタデータ) (2023-05-16T08:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。