論文の概要: MemLoRA: Distilling Expert Adapters for On-Device Memory Systems
- arxiv url: http://arxiv.org/abs/2512.04763v1
- Date: Thu, 04 Dec 2025 12:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.171756
- Title: MemLoRA: Distilling Expert Adapters for On-Device Memory Systems
- Title(参考訳): MemLoRA: オンデバイスメモリシステムのためのエキスパートアダプタを蒸留する
- Authors: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli,
- Abstract要約: メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。
MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。
VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
- 参考スコア(独自算出の注目度): 71.32550994522738
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Memory-augmented Large Language Models (LLMs) have demonstrated remarkable consistency during prolonged dialogues by storing relevant memories and incorporating them as context. Such memory-based personalization is also key in on-device settings that allow users to keep their conversations and data private. However, memory-augmented systems typically rely on LLMs that are too costly for local on-device deployment. Even though Small Language Models (SLMs) are more suitable for on-device inference than LLMs, they cannot achieve sufficient performance. Additionally, these LLM-based systems lack native visual capabilities, limiting their applicability in multimodal contexts. In this paper, we introduce (i) MemLoRA, a novel memory system that enables local deployment by equipping SLMs with specialized memory adapters, and (ii) its vision extension MemLoRA-V, which integrates small Vision-Language Models (SVLMs) to memory systems, enabling native visual understanding. Following knowledge distillation principles, each adapter is trained separately for specific memory operations$\unicode{x2013}$knowledge extraction, memory update, and memory-augmented generation. Equipped with memory adapters, small models enable accurate on-device memory operations without cloud dependency. On text-only operations, MemLoRA outperforms 10$\times$ larger baseline models (e.g., Gemma2-27B) and achieves performance comparable to 60$\times$ larger models (e.g., GPT-OSS-120B) on the LoCoMo benchmark. To evaluate visual understanding operations instead, we extend LoCoMo with challenging Visual Question Answering tasks that require direct visual reasoning. On this, our VLM-integrated MemLoRA-V shows massive improvements over caption-based approaches (81.3 vs. 23.7 accuracy) while keeping strong performance in text-based tasks, demonstrating the efficacy of our method in multimodal contexts.
- Abstract(参考訳): メモリ拡張大言語モデル(LLM)は、関連する記憶を記憶し、それらをコンテキストとして組み込むことで、長い対話の間に顕著な一貫性を示す。
このようなメモリベースのパーソナライゼーションは、ユーザーが会話やデータをプライベートにしておくことができるオンデバイス設定においても重要である。
しかし、メモリ拡張システムは、通常、ローカルなデバイス上のデプロイにはコストがかかりすぎるLCMに依存します。
小言語モデル(SLM)は、LLMよりもデバイス上での推論に適しているが、十分な性能は達成できない。
さらに、これらのLLMベースのシステムはネイティブな視覚能力に欠けており、マルチモーダルコンテキストでの適用性が制限されている。
本稿では,本論文について紹介する。
i) MemLoRA - SLMに特別なメモリアダプタを装備してローカル展開を可能にする新しいメモリシステム
i)視覚拡張MemLoRA-Vは、小さな視覚言語モデル(SVLM)をメモリシステムに統合し、ネイティブな視覚理解を可能にする。
知識蒸留の原則に従って、各アダプタは特定のメモリ操作のために個別にトレーニングされる。
メモリアダプタを備えた小さなモデルは、クラウド依存なしにデバイス上の正確なメモリ操作を可能にする。
テキストのみの操作では、MemLoRAは10$\times$より大きなベースラインモデル(例:Gemma2-27B)より優れ、LoCoMoベンチマークで60$\times$大きなモデル(例:GPT-OSS-120B)に匹敵するパフォーマンスを達成する。
視覚的理解操作を評価するために、直接視覚的推論を必要とする視覚的質問回答タスクに挑戦してLoCoMoを拡張する。
これに対し,VLM 統合 MemLoRA-V は字幕ベースのアプローチ (81.3 対 23.7 の精度) よりも大幅に改善され,テキストベースのタスクでは高い性能を維持し,マルチモーダルな文脈での手法の有効性を実証した。
関連論文リスト
- Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models [31.944531660401722]
我々は,大規模言語モデル(LLM)用に設計されたメモリオペレーティングシステムであるMemOSを紹介する。
コアとなるMemCubeは、異種メモリの追跡、融合、マイグレーションを可能にする標準化されたメモリ抽象化である。
MemOSは、強力な制御性、適応性、進化性を備えたメモリ中心の実行フレームワークを確立する。
論文 参考訳(メタデータ) (2025-05-28T08:27:12Z) - Towards General Continuous Memory for Vision-Language Models [39.95345066340921]
言語モデル(LM)とその拡張である視覚言語モデル(VLM)は、様々なタスクで顕著なパフォーマンスを実現している。
彼らはまだ、マルチモーダルまたはマルチリンガルな実世界の知識を必要とする複雑な推論タスクに苦慮している。
本稿では,マルチモーダルおよび多言語知識を表現するために,連続記憶(continuous memory)という高密度埋め込みのコンパクトな集合を提案する。
我々のアプローチであるCoMEMは、VLMの本来の能力を利用して、任意のマルチモーダルおよび多言語知識をたった8つの連続的な埋め込みにエンコードする。
論文 参考訳(メタデータ) (2025-05-23T09:36:53Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。
実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。