Fugu-MT 論文翻訳(概要): MobiEdit: Resource-efficient Knowledge Editing for Personalized On-device LLMs

論文の概要: MobiEdit: Resource-efficient Knowledge Editing for Personalized On-device LLMs

arxiv url: http://arxiv.org/abs/2506.13772v1
Date: Thu, 05 Jun 2025 03:02:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-22 23:32:14.644746
Title: MobiEdit: Resource-efficient Knowledge Editing for Personalized On-device LLMs
Title（参考訳）: MobiEdit:パーソナライズオンデバイスLLMのためのリソース効率のよい知識編集
Authors: Zhenyan Lu, Daliang Xu, Dongqi Cai, Zexi Li, Wei Liu, Fangming Liu, Shangguang Wang, Mengwei Xu,
Abstract要約: 大型言語モデル(LLM)は、インテリジェントアシスタントのようなキラーアプリケーションを動かすためにモバイルデバイスにデプロイされる。知識編集は、一般的な知識を損なうことなく、モデルの重みのごく一部を特定し調整することで、この問題に対処します。我々は,商用オフザシェルフ(COTS)モバイルデバイス上で,効率的なLCMパーソナライズを可能にする,最初のモバイル知識編集フレームワークであるMobiEditを紹介する。
参考スコア（独自算出の注目度）: 13.13698052973486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are deployed on mobile devices to power killer applications such as intelligent assistants. LLMs pre-trained on general corpora often hallucinate when handling personalized or unseen queries, leading to incorrect or outdated responses. Knowledge editing addresses this by identifying and adjusting a small crucial portion of model weights, without compromising the general knowledge. However, prior knowledge editing methods are impractical to run on local devices due to the resource-heavy backpropagation (BP) needed for updates. We present MobiEdit, the first mobile knowledge editing framework that enables efficient LLM personalization on commercial off-the-shelf (COTS) mobile devices. MobiEdit replaces full-precision BP with quantized forward-only gradient estimation, thus compatible with the energy-efficient mobile neural processing units (NPUs). MobiEdit replaces full-precision backpropagation with quantized forward-only gradient estimation, making it compatible with energy-efficient mobile NPUs. To further improve gradient estimation efficiency, we introduce two optimizations: an early stoping mechanism that adaptively terminates editing upon success and a prefix cache that reuses computation across steps. Our approach enables real-time editing of a 3B-parameter model (Qwen2.5-3B-Instruct) on COTS mobile devices with 7.6$\times$ less memory, 14.7 $\times$ less energy and 3.6$\times$ less latency compared to previous knowledge editing methods.
Abstract（参考訳）: 大型言語モデル(LLM)は、インテリジェントアシスタントのようなキラーアプリケーションを動かすためにモバイルデバイスにデプロイされる。一般的なコーパスで事前訓練されたLLMは、パーソナライズされたクエリや見えないクエリを扱う際に幻覚を与えることが多く、誤ったあるいは時代遅れなレスポンスをもたらす。知識編集は、一般的な知識を損なうことなく、モデルの重みのごく一部を特定し調整することで、この問題に対処する。しかし、リソースの重いバックプロパゲーション(BP)が更新に必要なため、従来の知識編集手法はローカルデバイス上では実行できない。我々は,商用オフザシェルフ(COTS)モバイルデバイス上で,効率的なLCMパーソナライズを可能にする,最初のモバイル知識編集フレームワークであるMobiEditを紹介する。 MobiEditは完全精度のBPを量子化フォワードのみの勾配推定に置き換え、エネルギー効率の良い移動ニューラルネットワークユニット(NPU)と互換性がある。 MobiEditは完全精度のバックプロパゲーションを量子化フォワードのみの勾配推定に置き換え、エネルギー効率の良いモバイルNPUと互換性がある。グラデーション推定効率をさらに向上させるために、成功時の編集を適応的に終了する早期停止機構と、ステップ間で計算を再利用するプレフィックスキャッシュの2つの最適化を導入する。当社のアプローチでは,COTSモバイル端末上での3Bパラメータモデル(Qwen2.5-3B-Instruct)のリアルタイム編集が可能で,メモリが7.6$\times$少ない,14.7$\times$少ない,3.6$\times$前の知識編集方法に比べてレイテンシが低い,という特徴がある。

関連論文リスト

Step More: Going Beyond Single Backpropagation in Meta Learning Based Model Editing [15.262884281166805]
大規模言語モデルは、多くのAIアプリケーションを支えるが、その静的な性質により、知識の更新にコストがかかる。モデル編集は、ターゲットパラメータ修正を通じて新しい情報を注入することで、効率的な代替手段を提供する。本稿では,$textbfM$ultipleを採用した新しいMLBME手法を提案する。
論文参考訳（メタデータ） (2025-08-06T01:54:58Z)
MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [82.34547399693966]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。残メモリを介して知識を注入する新しいスケーラブルなフレームワークであるMEMOIRを提案する。 MeMOIRは各編集をメモリパラメータの別のサブセットに限定し、編集間の干渉を最小限にする。
論文参考訳（メタデータ） (2025-06-09T16:16:42Z)
UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models [18.23723680134397]
生涯学習は、内部知識を継続的に更新することによって、大きな言語モデルが進化する情報に適応することを可能にする。モデル編集は、モデルの内部知識を更新するための集中的で効率的な方法を提供する、この目標のための有望なソリューションとして際立っている。 UltraEditはトレーニング用、主題用、メモリ不要で、超スケーラブルで現実世界の生涯モデル編集に適しています。
論文参考訳（メタデータ） (2025-05-20T17:59:04Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文参考訳（メタデータ） (2024-08-19T02:27:00Z)
MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文参考訳（メタデータ） (2024-03-19T15:51:21Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。 LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。 LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文参考訳（メタデータ） (2024-02-19T07:45:17Z)
SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。 SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文参考訳（メタデータ） (2024-01-31T13:08:45Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)
A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-13T23:52:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。