論文の概要: CHORD: Customizing Hybrid-precision On-device Model for Sequential Recommendation with Device-cloud Collaboration
- arxiv url: http://arxiv.org/abs/2510.03038v1
- Date: Fri, 03 Oct 2025 14:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.42121
- Title: CHORD: Customizing Hybrid-precision On-device Model for Sequential Recommendation with Device-cloud Collaboration
- Title(参考訳): CHORD: デバイスクラウドコラボレーションによるシーケンスレコメンデーションのためのハイブリッド精度オンデバイスモデルのカスタマイズ
- Authors: Tianqi Liu, Kairui Fu, Shengyu Zhang, Wenyan Fan, Zhaocheng Du, Jieming Zhu, Fan Wu, Fei Wu,
- Abstract要約: underlinetextbfDevice-cloudコラボレーション(textbfCHORD)を用いたシーケンシャルアンダーラインtextbfRecommendationのための underlinetextbfHybrid-precision underlinetextbfOn-device Model のカスタマイズフレームワークを提案する。
CHORDはバックプロパゲーションなしで動的モデル適応と推論を加速し、コストのかかる再訓練サイクルを排除します。
- 参考スコア(独自算出の注目度): 28.97362695603172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of mobile device capabilities, deploying reranking models directly on devices has become feasible, enabling real-time contextual recommendations. When migrating models from cloud to devices, resource heterogeneity inevitably necessitates model compression. Recent quantization methods show promise for efficient deployment, yet they overlook device-specific user interests, resulting in compromised recommendation accuracy. While on-device finetuning captures personalized user preference, it imposes additional computational burden through local retraining. To address these challenges, we propose a framework for \underline{\textbf{C}}ustomizing \underline{\textbf{H}}ybrid-precision \underline{\textbf{O}}n-device model for sequential \underline{\textbf{R}}ecommendation with \underline{\textbf{D}}evice-cloud collaboration (\textbf{CHORD}), leveraging channel-wise mixed-precision quantization to simultaneously achieve personalization and resource-adaptive deployment. CHORD distributes randomly initialized models across heterogeneous devices and identifies user-specific critical parameters through auxiliary hypernetwork modules on the cloud. Our parameter sensitivity analysis operates across multiple granularities (layer, filter, and element levels), enabling precise mapping from user profiles to quantization strategy. Through on-device mixed-precision quantization, CHORD delivers dynamic model adaptation and accelerated inference without backpropagation, eliminating costly retraining cycles. We minimize communication overhead by encoding quantization strategies using only 2 bits per channel instead of 32-bit weights. Experiments on three real-world datasets with two popular backbones (SASRec and Caser) demonstrate the accuracy, efficiency, and adaptivity of CHORD.
- Abstract(参考訳): モバイルデバイスの能力の進歩により、デバイスに直接再配置されたモデルをデプロイすることは実現可能となり、リアルタイムのコンテキストレコメンデーションが可能になる。
モデルをクラウドからデバイスに移行する場合、リソースの不均一性は必然的にモデル圧縮を必要とします。
近年の量子化手法は、効率的なデプロイメントを約束するが、デバイス固有のユーザ関心を見落とし、推奨精度を損なう。
デバイス上での微調整は、パーソナライズされたユーザの好みをキャプチャするが、ローカルリトレーニングにより、さらなる計算負担を課す。
これらの課題に対処するために、我々は、チャネルワイドの混合精度量子化を利用して、パーソナライズとリソース適応デプロイメントを同時に達成するために、チャネルワイドの混合精度量子化を利用した、シーケンシャルな \underline{\textbf{D}}ecommendation with \underline{\textbf{R}}ecommendation with \underline{\textbf{D}}evice-cloud collaboration (\textbf{CHORD}) のためのフレームワークを提案する。
CHORDはランダムに初期化されたモデルを異種デバイスに分散し、クラウド上の補助的なハイパーネットワークモジュールを通してユーザ固有の臨界パラメータを識別する。
パラメータ感度分析は、複数の粒度(層、フィルタ、要素レベル)にわたって動作し、ユーザプロファイルから量子化戦略への正確なマッピングを可能にする。
デバイス上での混合精度量子化により、CHORDは動的モデル適応と、バックプロパゲーションなしで推論を加速し、コストのかかる再学習サイクルをなくす。
通信オーバヘッドを32ビット重みの代わりにチャネルあたり2ビットのみを用いて量子化戦略を符号化することで最小化する。
2つの人気のあるバックボーン(SASRecとCasher)を持つ3つの実世界のデータセットの実験は、CHORDの正確性、効率、適応性を実証している。
関連論文リスト
- Fine-Grained AI Model Caching and Downloading With Coordinated Multipoint Broadcasting in Multi-Cell Edge Networks [18.922211191002646]
6Gネットワークは、エンドユーザの多様な推論要件を満たすために、オンデマンドAIモデルのダウンロードをサポートすることを想定している。
現代のAIモデルのかなりのサイズは、限られたストレージ容量下でのエッジキャッシングに重大な課題をもたらす。
本稿では,パラメータ再利用性を利用したきめ細かいAIモデルキャッシングとダウンロードシステムを提案する。
論文 参考訳(メタデータ) (2025-09-16T09:14:15Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - QCore: Data-Efficient, On-Device Continual Calibration for Quantized Models -- Extended Version [34.280197473547226]
機械学習モデルは、ストレージと計算能力に制限のあるエッジデバイスにデプロイすることができる。
エッジ上で連続的なキャリブレーションを可能にするためのQCoreを提案する。
論文 参考訳(メタデータ) (2024-04-22T08:57:46Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。