論文の概要: On-Device Large Language Models for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2601.09306v1
- Date: Wed, 14 Jan 2026 09:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.349106
- Title: On-Device Large Language Models for Sequential Recommendation
- Title(参考訳): 逐次レコメンデーションのためのオンデバイス大規模言語モデル
- Authors: Xin Xia, Hongzhi Yin, Shane Culpepper,
- Abstract要約: 大きな言語モデル(LLM)は、シーケンシャルなレコメンデーションタスクのためにユーザの振る舞いをモデル化する特別な機能を提供する。
しかし、そのメモリフットプリントと計算オーバーヘッドにより、リソース制限されたデバイスへのデプロイメントはリスクの高い提案となる。
逐次的なレコメンデーションタスクのために,LCMをデバイス上で効率よく,かつ正確なデプロイを実現するために設計された,最初のタスク適応型圧縮フレームワークOD-LLMを提案する。
- 参考スコア(独自算出の注目度): 33.216661461639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device recommendation is critical for a number of real-world applications, especially in scenarios that have agreements on execution latency, user privacy, and robust functionality when internet connectivity is unstable or even impossible. While large language models (LLMs) can now provide exceptional capabilities that model user behavior for sequential recommendation tasks, their substantial memory footprint and computational overhead make the deployment on resource-constrained devices a high risk proposition. In this paper, we propose OD-LLM, the first task-adaptive compression framework explicitly designed to provide efficient and accurate on-device deployment of LLMs for sequential recommendation tasks. OD-LLM uniquely integrates two complementary compression strategies: a low-rank structural compression algorithm which uses Singular Value Decomposition (SVD) to significantly reduce parameter redundancy in the model, and a novel tokenization normalization technique that better complements the low-rank decomposition process being used. Additionally, to minimize any potential performance degradation when using higher compression ratios, a novel progressive alignment algorithm is used to iteratively refine the parameters required layerwise in the target model. Empirical evaluations conducted on sequential recommendation benchmarks show that OD-LLM exhibits no loss in effectiveness when compared to the original recommendation model, when the deployed model size is halved. These promising results demonstrate the efficacy and scalability of OD-LLM, making this novel solution a practical alternative for real-time, on-device solutions wishing to replace expensive, remotely executed LLMs.
- Abstract(参考訳): オンデバイスレコメンデーションは,特にインターネット接続が不安定あるいは不可能である場合に,実行レイテンシやユーザのプライバシ,堅牢な機能に合意するシナリオにおいて,多くの実世界のアプリケーションにとって重要なものだ。
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションタスクのユーザ動作をモデル化する特別な機能を提供する一方で、メモリフットプリントと計算オーバーヘッドによって、リソースに制約のあるデバイスへのデプロイがリスクの高い提案となっている。
本稿では,命令適応型圧縮フレームワークOD-LLMを提案する。
OD-LLMは、Singular Value Decomposition (SVD) を用いてパラメータの冗長性を著しく低減する低ランク構造圧縮アルゴリズムと、使用中の低ランク分解プロセスをよりよく補完する新しいトークン化正規化手法の2つの相補的な圧縮戦略を統合する。
さらに、高い圧縮比を使用する場合の潜在的な性能劣化を最小限に抑えるために、新しいプログレッシブアライメントアルゴリズムを用いて、ターゲットモデルで必要とされるパラメータを階層的に反復的に洗練する。
逐次レコメンデーションベンチマークで行った実証評価では、OD-LLMは、デプロイされたモデルサイズが半減した場合に、オリジナルのレコメンデーションモデルと比較して効果が低下しないことが示された。
これらの有望な結果はOD-LLMの有効性とスケーラビリティを実証し、この新しいソリューションは、高価なリモート実行LLMを置き換えるために、リアルタイムのオンデバイスソリューションの実用的な代替手段となる。
関連論文リスト
- Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation [44.05859062614669]
MiniOneRecは、最初の完全なオープンソースジェネレーティブレコメンデーションフレームワークである。
SID構築にまたがるエンドツーエンドワークフロー、教師付き微調整、レコメンデーション指向の強化学習を提供する。
実験の結果,モデルサイズの増加に伴い,トレーニングと評価の両方の損失が一貫した下降傾向を示した。
論文 参考訳(メタデータ) (2025-10-28T13:58:36Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [45.58422897857411]
この研究は、LoRAを用いてパラメータ効率の良いCode Llamaを微調整することで、ハイパーパラメータ最適化のための大規模言語モデル(LLM)の使用について検討する。
提案手法は,計算オーバーヘッドを大幅に削減しつつ,競合的あるいは優れたRoot Mean Square Error(RMSE)を実現する。
その結果,LLMに基づく最適化によって,木構造型パーゼンエミュレータ (TPE) のようなベイズ的手法が確立されただけでなく,知覚品質と低レイテンシ処理を必要とする実世界のアプリケーションへのチューニングが高速化された。
論文 参考訳(メタデータ) (2025-04-08T13:15:47Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文 参考訳(メタデータ) (2025-01-04T03:26:46Z) - Sketch to Adapt: Fine-Tunable Sketches for Efficient LLM Adaptation [33.05581803204543]
事前訓練された大規模言語モデル(LLM)の適応は極めて重要であるが、その巨大なサイズのため困難である。
スケッチチューン(SketchTune)は、重みをコンパクトな微調整可能なスケッチに圧縮する圧縮適応戦略である。
SketchTuneは、低ランクメソッドではなくスケッチによって近似された行列クラスに関する数学的洞察によってサポートされている。
論文 参考訳(メタデータ) (2024-10-08T20:58:24Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。