論文の概要: InfiniPot: Infinite Context Processing on Memory-Constrained LLMs
- arxiv url: http://arxiv.org/abs/2410.01518v1
- Date: Wed, 2 Oct 2024 13:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:14:45.749271
- Title: InfiniPot: Infinite Context Processing on Memory-Constrained LLMs
- Title(参考訳): InfiniPot: メモリ制約 LLM 上の無限コンテキスト処理
- Authors: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang,
- Abstract要約: InfiniPotは、トレーニング済みの大規模言語モデルで広範囲のシーケンスを効率的に管理できるように設計された、新しいKVキャッシュ制御フレームワークである。
InfiniPotは、将来のコンテキストにアクセスしなくても、重要なデータを効果的に維持する。
この研究は、広範囲の現実世界のシナリオに適用できるようにするための大きな言語モデルの実現に向けた大きな進歩を示している。
- 参考スコア(独自算出の注目度): 17.111422610001227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handling long input contexts remains a significant challenge for Large Language Models (LLMs), particularly in resource-constrained environments such as mobile devices. Our work aims to address this limitation by introducing InfiniPot, a novel KV cache control framework designed to enable pre-trained LLMs to manage extensive sequences within fixed memory constraints efficiently, without requiring additional training. InfiniPot leverages Continual Context Distillation (CCD), an iterative process that compresses and retains essential information through novel importance metrics, effectively maintaining critical data even without access to future context. Our comprehensive evaluations indicate that InfiniPot significantly outperforms models trained for long contexts in various NLP tasks, establishing its efficacy and versatility. This work represents a substantial advancement toward making LLMs applicable to a broader range of real-world scenarios.
- Abstract(参考訳): 長い入力コンテキストを扱うことは、特にモバイルデバイスのようなリソース制約のある環境では、LLM(Large Language Models)にとって重要な課題である。
InfiniPotは、事前学習されたLLMが追加のトレーニングを必要とせず、固定メモリ制約内で広範囲のシーケンスを効率的に管理できるように設計された新しいKVキャッシュ制御フレームワークである。
InfiniPotは連続的コンテキスト蒸留(Continuous Context Distillation, CCD)を利用する。これは、新しい重要なメトリクスを通じて重要な情報を圧縮し、保持する反復プロセスであり、将来のコンテキストにアクセスしなくても、重要なデータを効果的に維持する。
総合評価の結果、InfiniPotは様々なNLPタスクにおいて長いコンテキストで訓練されたモデルよりも優れており、その有効性と汎用性を確立していることがわかった。
この研究は、LLMをより広い範囲の現実世界のシナリオに適用できるようにするための大きな進歩を示している。
関連論文リスト
- Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing [19.577278316436807]
大きな言語モデル(LLM)はコンテキストウィンドウサイズによって制限される。
そこで本研究では,LLM自体の注意情報を利用して正確な検索を行う手法を提案する。
InfiniRetriは0.5Bパラメータモデルを用いて、1Mトークン上でのNeedle-In-a-Haystack(NIH)テストで100%精度を達成する。
論文 参考訳(メタデータ) (2025-02-18T15:45:36Z) - InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - ReAttention: Training-Free Infinite Context with Finite Attention Scope [65.91272939057592]
LLM(Large Language Models)の長期コンテキスト能力は大きなブレークスルーをもたらしたが、サポート対象の最大コンテキスト長は、実用的アプリケーションを制限する重要なボトルネックのままである。
本稿では,bftextReAttentionを提案する。bftextReAttentionは,自己アテンション機構をベースとしたLLMが,十分なメモリリソースの下で有限の注意範囲を持つ無限コンテキストをサポート可能な学習自由な手法である。
本稿では,LongBench,L-Eval,InfiniteBenchにおけるReAttentionの性能を検証し,従来の手法と同等であることを示す。
論文 参考訳(メタデータ) (2024-07-21T14:23:37Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。
LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。
データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文 参考訳(メタデータ) (2024-03-03T03:27:07Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Online Continual Learning Without the Storage Constraint [67.66235695269839]
我々は、kNN分類器を固定された事前訓練された特徴抽出器とともに継続的に更新する簡単なアルゴリズムを提案する。
高速に変化するストリームに適応し、安定性のギャップをゼロにし、小さな計算予算内で動作し、機能のみを格納することで、ストレージ要件を低くすることができる。
2つの大規模オンライン連続学習データセットにおいて、既存の手法を20%以上の精度で上回ることができる。
論文 参考訳(メタデータ) (2023-05-16T08:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。