論文の概要: Cartridges: Lightweight and general-purpose long context representations via self-study
- arxiv url: http://arxiv.org/abs/2506.06266v2
- Date: Mon, 09 Jun 2025 05:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.177074
- Title: Cartridges: Lightweight and general-purpose long context representations via self-study
- Title(参考訳): カートリッジ:自己学習による軽量で汎用的なロングコンテキスト表現
- Authors: Sabri Eyuboglu, Ryan Ehrlich, Simran Arora, Neel Guha, Dylan Zinsley, Emily Liu, Will Tennien, Atri Rudra, James Zou, Azalia Mirhoseini, Christopher Re,
- Abstract要約: 大規模な言語モデルは、大きなテキストコーパスに埋もれたクエリに答えるためにしばしば使用される。
本研究では,コーパスに関する合成会話を生成し,文脈蒸留目的のカートリッジを訓練する学習レシピを提案する。
自己学習で訓練したCartridgesは、ICLの機能を複製するが、提供コストはかなり安い。
- 参考スコア(独自算出の注目度): 33.99088544845831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are often used to answer queries grounded in large text corpora (e.g. codebases, legal documents, or chat histories) by placing the entire corpus in the context window and leveraging in-context learning (ICL). Although current models support contexts of 100K-1M tokens, this setup is costly to serve because the memory consumption of the KV cache scales with input length. We explore an alternative: training a smaller KV cache offline on each corpus. At inference time, we load this trained KV cache, which we call a Cartridge, and decode a response. Critically, the cost of training a Cartridge can be amortized across all the queries referencing the same corpus. However, we find that the naive approach of training the Cartridge with next-token prediction on the corpus is not competitive with ICL. Instead, we propose self-study, a training recipe in which we generate synthetic conversations about the corpus and train the Cartridge with a context-distillation objective. We find that Cartridges trained with self-study replicate the functionality of ICL, while being significantly cheaper to serve. On challenging long-context benchmarks, Cartridges trained with self-study match ICL performance while using 38.6x less memory and enabling 26.4x higher throughput. Self-study also extends the model's effective context length (e.g. from 128k to 484k tokens on MTOB) and surprisingly, leads to Cartridges that can be composed at inference time without retraining.
- Abstract(参考訳): 大規模言語モデルは、コンテキストウィンドウにコーパス全体を配置し、コンテキスト内学習(ICL)を活用することで、大きなテキストコーパス(コードベース、法律文書、チャット履歴など)に根ざしたクエリに答えるためにしばしば使用される。
現在のモデルは100K-1Mトークンのコンテキストをサポートするが、KVキャッシュのメモリ消費は入力長とともにスケールするため、この設定は費用がかかる。
より小さなKVキャッシュを各コーパスでオフラインでトレーニングする。
推論時には、トレーニング済みのKVキャッシュをロードし、Cartridgeと呼び、レスポンスをデコードします。
批判的に、Cartridgeをトレーニングするコストは、同じコーパスを参照するすべてのクエリで償却できる。
しかし、直近の予測でカートリッジを訓練するという単純なアプローチは、ICLと競合するものではないことが判明した。
代わりに、コーパスに関する合成会話を生成し、文脈蒸留目的のカートリッジを訓練する学習レシピであるセルフスタディを提案する。
自己学習で訓練したCartridgesは、ICLの機能を複製するが、提供コストはかなり安い。
挑戦的なロングコンテキストベンチマークでは、カートリッジスは、メモリを38.6倍削減し、26.4倍高いスループットを実現し、自己学習のICL性能を訓練した。
自己学習はまた、モデルの効果的なコンテキスト長(MTOB上の128kから484kトークンなど)を拡張し、驚くべきことに、再トレーニングせずに推論時に構成できるカートリッジへと導かれる。
関連論文リスト
- Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。
textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。
SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文 参考訳(メタデータ) (2025-05-22T14:11:34Z) - From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。
コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。
提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-08T16:58:58Z) - Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-07-25T12:56:22Z) - XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference [20.249206904309816]
インコンテキスト学習(ICL)アプローチは典型的には、参照情報に基づいて条件デコーダのみの言語モデルを生成するプロンプトを活用する。
この研究は、エンコーダ・デコーダアーキテクチャにインスパイアされたモデルを導入し、プロンプトなしで参照テキストの条件生成にクロスアテンションを使用することにより、これらの制限に対処する。
質問応答(QA)をテストベッドとして使用し、条件生成能力を評価し、ICLより優れており、微調整された誘導LDMと同等であり、標準KVキャッシュと比較して空間フットプリントを2桁の精度で大幅に削減する。
論文 参考訳(メタデータ) (2024-04-23T18:10:42Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。