論文の概要: Rethinking LoRA Memory Through the Lens of KV Cache Compression
- arxiv url: http://arxiv.org/abs/2606.05698v1
- Date: Thu, 04 Jun 2026 04:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.558927
- Title: Rethinking LoRA Memory Through the Lens of KV Cache Compression
- Title(参考訳): KVキャッシュ圧縮のレンズによるLoRAメモリ再考
- Authors: Chunsheng Zuo, Liaoyaqi Wang, William Jurayj, William Fleshman, Benjamin Van Durme,
- Abstract要約: パラメトリック検索は文書情報をLoRAアダプタなどの文書固有のモジュールにエンコードする。
我々は,このパラメータ側メモリが,KVキャッシュに格納されたコンテキスト側メモリとどのように相互作用するかを検討する。
我々は、KVキャッシュがほとんど無傷である場合にLoRAはほとんど追加しないが、アグレッシブ圧縮下ではますます有用になると考えている。
- 参考スコア(独自算出の注目度): 41.571685922015455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parametric retrieval augmentation encodes document information into lightweight, document-specific modules such as LoRA adapters, reducing the need to include all evidence as input context. However, it remains unclear how this parameter-side memory interacts with context-side memory stored in the KV cache. We study this interaction in document-level question answering by progressively evicting document key-value states and measuring when a document LoRA contributes beyond the retained context. We find that document LoRA adds little when the KV cache is largely intact, but becomes increasingly useful under aggressive compression, recovering 13-21 ROUGE-L points when no document context remains. The gain is largest when the base model encodes the document, and the adapter is applied only during answer generation, suggesting that document LoRA is better understood as decoding-time parametric memory than as a document encoder. Finally, QA-style supervision produces substantially stronger adapters than raw-context next-token-prediction. These results position document LoRA as a complementary memory channel whose value emerges precisely when context-side evidence is scarce.
- Abstract(参考訳): パラメトリック検索は、文書情報をLoRAアダプタのような軽量で文書固有のモジュールにエンコードすることで、すべてのエビデンスを入力コンテキストとして含める必要がなくなる。
しかし、このパラメータ側メモリが、KVキャッシュに格納されたコンテキスト側メモリとどのように相互作用するかは不明である。
文書キーバリュー状態を段階的に排除し、文書ロラが保持された文脈を超えて寄与するかどうかを測定することにより、文書レベルの質問応答におけるこの相互作用を研究する。
この文書はKVキャッシュがほとんど無傷である場合にはほとんど追加されないが、攻撃的な圧縮で有用になり、文書コンテキストが残らない場合、13-21 ROUGE-Lポイントを回復する。
このゲインは、ベースモデルが文書をエンコードするときに最大であり、アダプタは応答生成時にのみ適用され、文書LoRAは文書エンコーダよりも復号時パラメトリックメモリとして理解されていることを示唆する。
最後に、QAスタイルの監視は、生のコンテキストの次トーケン予測よりもはるかに強力なアダプタを生成する。
これらの結果、文脈側の証拠が乏しい場合に、その値が正確に現れる相補的な記憶チャネルとしてLoRAを配置する。
関連論文リスト
- Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents [51.30250860677378]
本稿では,連想記憶グラフとアクティブな再構成機構を組み合わせたフレームワークであるMRAgentを提案する。
Cue-Tag-Contentグラフ上で実行することで,メモリアクセスに直接推論を統合する。
LoCoMoベンチマークとLongMemEvalベンチマークの実験は、強いベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-06-04T11:29:46Z) - Scaling Self-Evolving Agents via Parametric Memory [69.96398842169002]
既存のメモリ拡張LDMエージェントは、過去の経験をプロンプト空間にのみ保存する。
自己進化型パラメトリックメモリフレームワークである textttTMEM を導入する。
textttTMEMは、様々なモデルスケールで要約ベースのベースラインと検索ベースのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-06-03T07:18:31Z) - OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory [12.240259398680259]
OCR-Memoryは、エージェント体験の高密度表現として視覚的モダリティを活用するメモリフレームワークである。
OCR-Memoryは、Emphlocate-and-transcribeパラダイムを通じて格納されたエクスペリエンスを検索し、視覚アンカーを通じて関連する領域を選択し、対応する動詞のテキストを検索する。
論文 参考訳(メタデータ) (2026-04-29T12:49:30Z) - A Parametric Memory Head for Continual Generative Retrieval [52.66674234249913]
生成情報検索(GenIR)は、検索を単一のニューラルモデルに統合し、クエリから直接ドキュメント識別子(ドシデント)をデコードする。
逐次適応は、新たに追加された文書の検索を改善するが、以前のスライスの性能は著しく低下することを示す。
本稿では,モジュール型パラメトリックメモリヘッドで適応モデルを拡張するメモリのみの安定化ステージである,後適応メモリチューニング(PAMT)を提案する。
論文 参考訳(メタデータ) (2026-04-25T17:38:51Z) - ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval [58.575695990976136]
大規模言語モデル(LLM)は複雑な推論タスクにおいて優れたパフォーマンスを示している。
LLMは、最終的な答えに到達する前に、長い中間的思考を生成する必要があることが多い。
我々は,LLMが動詞の推論思考を要約に適応的に圧縮することを可能にする新しいアプローチであるZoomRを紹介する。
論文 参考訳(メタデータ) (2026-04-13T02:00:35Z) - DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search [23.447631421934847]
DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。
DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
論文 参考訳(メタデータ) (2026-02-04T20:03:28Z) - Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation [22.803751188961865]
検索は類似性マッチングを超えて移動し、代わりに潜在コンポーネントを操作するべきだと我々は主張する。
我々は、無傷ユニットの階層を構築し、検索可能な高レベルノード組織を維持するxMemoryを提案する。
論文 参考訳(メタデータ) (2026-02-02T12:04:58Z) - LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding [37.12229829548839]
レイアウト対応動的RAGフレームワークであるLAD-RAGを提案する。
LAD-RAGは、レイアウト構造とページ間の依存関係をキャプチャするシンボリック文書グラフを構築する。
MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAの実験は、LAD-RAGが検索を改善し、トップkチューニングなしで平均90%以上の完全リコールを達成することを示した。
論文 参考訳(メタデータ) (2025-10-08T17:02:04Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。