論文の概要: Research on Low-Latency Inference and Training Efficiency Optimization for Graph Neural Network and Large Language Model-Based Recommendation Systems
- arxiv url: http://arxiv.org/abs/2507.01035v1
- Date: Sat, 21 Jun 2025 03:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.429852
- Title: Research on Low-Latency Inference and Training Efficiency Optimization for Graph Neural Network and Large Language Model-Based Recommendation Systems
- Title(参考訳): グラフニューラルネットワークと大規模言語モデルに基づくレコメンデーションシステムのための低レイテンシ推論とトレーニング効率最適化に関する研究
- Authors: Yushang Zhao, Haotian Lyu, Yike Peng, Aijia Sun, Feng Jiang, Xinyue Han,
- Abstract要約: 本研究では、ハイブリッドグラフニューラルネットワーク(GNN)とLarge Language Model(LLM)ベースのレコメンデータシステム(ReS)における計算ボトルネックについて考察する。
FPGAとLoRAをリアルタイムデプロイメントに使用することを推奨している。
- 参考スコア(独自算出の注目度): 4.633338944734091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The incessant advent of online services demands high speed and efficient recommender systems (ReS) that can maintain real-time performance along with processing very complex user-item interactions. The present study, therefore, considers computational bottlenecks involved in hybrid Graph Neural Network (GNN) and Large Language Model (LLM)-based ReS with the aim optimizing their inference latency and training efficiency. An extensive methodology was used: hybrid GNN-LLM integrated architecture-optimization strategies(quantization, LoRA, distillation)-hardware acceleration (FPGA, DeepSpeed)-all under R 4.4.2. Experimental improvements were significant, with the optimal Hybrid + FPGA + DeepSpeed configuration reaching 13.6% more accuracy (NDCG@10: 0.75) at 40-60ms of latency, while LoRA brought down training time by 66% (3.8 hours) in comparison to the non-optimized baseline. Irrespective of domain, such as accuracy or efficiency, it can be established that hardware-software co-design and parameter-efficient tuning permit hybrid models to outperform GNN or LLM approaches implemented independently. It recommends the use of FPGA as well as LoRA for real-time deployment. Future work should involve federated learning along with advanced fusion architectures for better scalability and privacy preservation. Thus, this research marks the fundamental groundwork concerning next-generation ReS balancing low-latency response with cutting-edge personalization.
- Abstract(参考訳): オンラインサービスの急激な出現は、非常に複雑なユーザとイテムのインタラクションを処理するとともに、リアルタイムのパフォーマンスを維持できる高速で効率的なレコメンデーションシステム(ReS)を必要とする。
そこで本研究では,グラフニューラルネットワーク(GNN)とLarge Language Model(LLM)ベースのReSにおける計算ボトルネックについて考察し,推論遅延と学習効率を最適化することを目的とした。
ハイブリッドGNN-LLM統合アーキテクチャ最適化戦略(量子化、LoRA、蒸留)-ハードウェアアクセラレーション(FPGA、DeepSpeed)-すべてR4.4.2の下で使用される。
最適なHybrid + FPGA + DeepSpeed構成は40~60msのレイテンシで13.6%の精度(NDCG@10: 0.75)に到達し、LoRAは最適化されていないベースラインに比べてトレーニング時間を66%(3.8時間)短縮した。
精度や効率などの領域によらず、ハードウェア・ソフトウェアの共同設計とパラメータ効率の調整により、GNNやLLMのアプローチを独立して性能向上させるハイブリッドモデルが確立される。
FPGAとLoRAをリアルタイムデプロイメントに使用することを推奨している。
今後の作業には、統合学習と高度な融合アーキテクチャによるスケーラビリティとプライバシ保護が関与するはずだ。
そこで本研究では,最先端のパーソナライゼーションと低遅延応答のバランスをとる次世代ReSに関する基礎研究を行う。
関連論文リスト
- Large Language Model Enhanced Particle Swarm Optimization for Hyperparameter Tuning for Deep Learning Models [2.3949320404005436]
Particle Swarm Optimization and Large Language Models (LLM) は、最適化とディープラーニングに個別に適用されている。
本研究は,モデル評価の低減と収束性向上のため,PLMをPSOに統合することで,このギャップに対処する。
提案手法は, 探索空間の探索を最適化し, 粒子配置を最適化する手法である。
論文 参考訳(メタデータ) (2025-04-19T00:54:59Z) - The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文 参考訳(メタデータ) (2025-01-04T03:26:46Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。
NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。
本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文 参考訳(メタデータ) (2024-08-09T19:35:10Z) - EdgeOL: Efficient in-situ Online Learning on Edge Devices [51.86178757050963]
予測精度、微調整実行時間、エネルギー効率を最適化するエッジオンライン学習フレームワークであるEdgeOLを提案する。
実験結果から、EdgeOLは、全体の微調整実行時間を64%削減し、エネルギー消費を52%削減し、オンラインの即時学習戦略よりも平均推定精度を1.75%向上させることがわかった。
論文 参考訳(メタデータ) (2024-01-30T02:41:05Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - High-Performance FPGA-based Accelerator for Bayesian Recurrent Neural
Networks [2.0631735969348064]
本稿では,ベイジアンLSTMベースのRNNを高速化するFPGAベースのハードウェア設計を提案する。
GPU実装と比較して、FPGAベースの設計では、最大106倍のエネルギー効率で10倍のスピードアップを実現できます。
論文 参考訳(メタデータ) (2021-06-04T14:30:39Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。