論文の概要: Exploring Fine-Tuning for In-Context Retrieval and Efficient KV-Caching in Long-Context Language Models
- arxiv url: http://arxiv.org/abs/2601.18527v1
- Date: Mon, 26 Jan 2026 14:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.870353
- Title: Exploring Fine-Tuning for In-Context Retrieval and Efficient KV-Caching in Long-Context Language Models
- Title(参考訳): 長期言語モデルにおける文脈検索と効率的なKVキャッシングのための微調整探索
- Authors: Francesco Maria Molfese, Momchil Hardalov, Rexhina Blloshmi, Bill Byrne, Adrià de Gispert,
- Abstract要約: Long-Context Language Modelsは、ドキュメントコレクション全体をエンコードできる。
実験では、ドメイン内の大幅な改善が示され、ベースモデルよりも最大で20ポイント向上した。
我々は,KV-cache圧縮下での強靭性を適度に改善する手法を提案する。
- 参考スコア(独自算出の注目度): 25.173231793620417
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With context windows of millions of tokens, Long-Context Language Models (LCLMs) can encode entire document collections, offering a strong alternative to conventional retrieval-augmented generation (RAG). However, it remains unclear whether fine-tuning strategies can improve long-context performance and translate to greater robustness under KV-cache compression techniques. In this work, we investigate which training strategies most effectively enhance LCLMs' ability to identify and use relevant information, as well as enhancing their robustness under KV-cache compression. Our experiments show substantial in-domain improvements, achieving gains of up to +20 points over the base model. However, out-of-domain generalization remains task dependent with large variance -- LCLMs excels on finance questions (+9 points), while RAG shows stronger performance on multiple-choice questions (+6 points) over the baseline models. Finally, we show that our fine-tuning approaches bring moderate improvements in robustness under KV-cache compression, with gains varying across tasks.
- Abstract(参考訳): 数百万のトークンのコンテキストウィンドウにより、Long-Context Language Models (LCLM) はドキュメントコレクション全体をエンコードすることができ、従来の検索拡張生成(RAG)の強力な代替手段を提供する。
しかし, KV-cache圧縮技術により, 微調整手法が長コンテキスト性能を向上し, 強靭性に変換できるかどうかは不明である。
本研究は,KV-cache圧縮下での強靭性の向上とともに,LCLMの関連情報を識別・活用する能力を最も効果的に向上する学習戦略を検討する。
実験では、ドメイン内での大幅な改善が示され、ベースモデルよりも最大で20ポイント向上した。
しかし、領域外一般化は大きな分散にタスク依存しており、LCLMは金融問題(+9点)に優れ、RAGはベースラインモデルよりも複数の選択問題(+6点)に強いパフォーマンスを示す。
最後に、我々の微調整手法は、KV-cache圧縮下での頑健さを適度に改善し、タスク毎に利得が変化することを示す。
関連論文リスト
- Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
各種基本言語モデルにおけるKVキャッシュ圧縮の効果を評価するためのベンチマークKVFundaBenchを提案する。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを処理する新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-07-25T12:56:22Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。