論文の概要: MobiEdit: Resource-efficient Knowledge Editing for Personalized On-device LLMs
- arxiv url: http://arxiv.org/abs/2506.13772v1
- Date: Thu, 05 Jun 2025 03:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.644746
- Title: MobiEdit: Resource-efficient Knowledge Editing for Personalized On-device LLMs
- Title(参考訳): MobiEdit:パーソナライズオンデバイスLLMのためのリソース効率のよい知識編集
- Authors: Zhenyan Lu, Daliang Xu, Dongqi Cai, Zexi Li, Wei Liu, Fangming Liu, Shangguang Wang, Mengwei Xu,
- Abstract要約: 大型言語モデル(LLM)は、インテリジェントアシスタントのようなキラーアプリケーションを動かすためにモバイルデバイスにデプロイされる。
知識編集は、一般的な知識を損なうことなく、モデルの重みのごく一部を特定し調整することで、この問題に対処します。
我々は,商用オフザシェルフ(COTS)モバイルデバイス上で,効率的なLCMパーソナライズを可能にする,最初のモバイル知識編集フレームワークであるMobiEditを紹介する。
- 参考スコア(独自算出の注目度): 13.13698052973486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are deployed on mobile devices to power killer applications such as intelligent assistants. LLMs pre-trained on general corpora often hallucinate when handling personalized or unseen queries, leading to incorrect or outdated responses. Knowledge editing addresses this by identifying and adjusting a small crucial portion of model weights, without compromising the general knowledge. However, prior knowledge editing methods are impractical to run on local devices due to the resource-heavy backpropagation (BP) needed for updates. We present MobiEdit, the first mobile knowledge editing framework that enables efficient LLM personalization on commercial off-the-shelf (COTS) mobile devices. MobiEdit replaces full-precision BP with quantized forward-only gradient estimation, thus compatible with the energy-efficient mobile neural processing units (NPUs). MobiEdit replaces full-precision backpropagation with quantized forward-only gradient estimation, making it compatible with energy-efficient mobile NPUs. To further improve gradient estimation efficiency, we introduce two optimizations: an early stoping mechanism that adaptively terminates editing upon success and a prefix cache that reuses computation across steps. Our approach enables real-time editing of a 3B-parameter model (Qwen2.5-3B-Instruct) on COTS mobile devices with 7.6$\times$ less memory, 14.7 $\times$ less energy and 3.6$\times$ less latency compared to previous knowledge editing methods.
- Abstract(参考訳): 大型言語モデル(LLM)は、インテリジェントアシスタントのようなキラーアプリケーションを動かすためにモバイルデバイスにデプロイされる。
一般的なコーパスで事前訓練されたLLMは、パーソナライズされたクエリや見えないクエリを扱う際に幻覚を与えることが多く、誤ったあるいは時代遅れなレスポンスをもたらす。
知識編集は、一般的な知識を損なうことなく、モデルの重みのごく一部を特定し調整することで、この問題に対処する。
しかし、リソースの重いバックプロパゲーション(BP)が更新に必要なため、従来の知識編集手法はローカルデバイス上では実行できない。
我々は,商用オフザシェルフ(COTS)モバイルデバイス上で,効率的なLCMパーソナライズを可能にする,最初のモバイル知識編集フレームワークであるMobiEditを紹介する。
MobiEditは完全精度のBPを量子化フォワードのみの勾配推定に置き換え、エネルギー効率の良い移動ニューラルネットワークユニット(NPU)と互換性がある。
MobiEditは完全精度のバックプロパゲーションを量子化フォワードのみの勾配推定に置き換え、エネルギー効率の良いモバイルNPUと互換性がある。
グラデーション推定効率をさらに向上させるために、成功時の編集を適応的に終了する早期停止機構と、ステップ間で計算を再利用するプレフィックスキャッシュの2つの最適化を導入する。
当社のアプローチでは,COTSモバイル端末上での3Bパラメータモデル(Qwen2.5-3B-Instruct)のリアルタイム編集が可能で,メモリが7.6$\times$少ない,14.7$\times$少ない,3.6$\times$前の知識編集方法に比べてレイテンシが低い,という特徴がある。
関連論文リスト
- MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [82.34547399693966]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。
残メモリを介して知識を注入する新しいスケーラブルなフレームワークであるMEMOIRを提案する。
MeMOIRは各編集をメモリパラメータの別のサブセットに限定し、編集間の干渉を最小限にする。
論文 参考訳(メタデータ) (2025-06-09T16:16:42Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。
本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z) - MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。
我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。
我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文 参考訳(メタデータ) (2024-03-19T15:51:21Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。