論文の概要: The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit
- arxiv url: http://arxiv.org/abs/2501.02173v1
- Date: Sat, 04 Jan 2025 03:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 16:36:50.902154
- Title: The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit
- Title(参考訳): 効率対精度トレードオフ:マルチヘッド早期出力を用いたRAG強化LLMレコメンダシステムの最適化
- Authors: Huixue Zhou, Hengrui Gu, Xi Liu, Kaixiong Zhou, Mingfu Liang, Yongkang Xiao, Srinivas Govindan, Piyush Chawla, Jiyan Yang, Xiangfei Meng, Huayu Li, Buyun Zhang, Liang Luo, Wen-Yen Chen, Yiping Han, Bo Long, Rui Zhang, Tianlong Chen,
- Abstract要約: 本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
- 参考スコア(独自算出の注目度): 46.37267466656765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Large Language Models (LLMs) in recommender systems for predicting Click-Through Rates (CTR) necessitates a delicate balance between computational efficiency and predictive accuracy. This paper presents an optimization framework that combines Retrieval-Augmented Generation (RAG) with an innovative multi-head early exit architecture to concurrently enhance both aspects. By integrating Graph Convolutional Networks (GCNs) as efficient retrieval mechanisms, we are able to significantly reduce data retrieval times while maintaining high model performance. The early exit strategy employed allows for dynamic termination of model inference, utilizing real-time predictive confidence assessments across multiple heads. This not only quickens the responsiveness of LLMs but also upholds or improves their accuracy, making it ideal for real-time application scenarios. Our experiments demonstrate how this architecture effectively decreases computation time without sacrificing the accuracy needed for reliable recommendation delivery, establishing a new standard for efficient, real-time LLM deployment in commercial systems.
- Abstract(参考訳): CTR(Click-Through Rates)を予測するための推奨システムにおけるLLM(Large Language Models)の展開は、計算効率と予測精度の微妙なバランスを必要とする。
本稿では,Retrieval-Augmented Generation (RAG) と革新的なマルチヘッド早期終了アーキテクチャを組み合わせた最適化フレームワークを提案する。
グラフ畳み込みネットワーク(GCN)を効率的な検索機構として統合することにより,高モデル性能を維持しながらデータ検索時間を著しく短縮することができる。
初期のエグジット戦略は、モデル推論の動的終了を可能にし、複数のヘッドにわたるリアルタイム予測的信頼評価を利用する。
LLMの応答性を素早くするだけでなく、その正確性も向上するので、リアルタイムのアプリケーションシナリオに最適です。
このアーキテクチャは,信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく,計算時間を効果的に削減し,商用システムにおけるリアルタイムLLMの効率的な展開のための新しい標準を確立した。
関連論文リスト
- SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - syftr: Pareto-Optimal Generative AI [40.80352098169579]
syftrはエージェントと非エージェントのRAG構成の広い領域で効率的な多目的探索を行うフレームワークである。
Syftrは、最も正確な流れの正確さを保ちながら、平均して9倍のコストで流れを見つける。
論文 参考訳(メタデータ) (2025-05-26T17:43:13Z) - Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [42.362388367152256]
大規模言語モデル(LLM)は、LoRAを使用してパラメータ効率の良いCode Llamaを微調整するために使用される。
提案手法は,演算オーバーヘッドを著しく低減しつつ,ルート平均角誤差(RMSE)の点で競争力や優位性を実現する。
論文 参考訳(メタデータ) (2025-04-08T13:15:47Z) - End-to-End Dialog Neural Coreference Resolution: Balancing Efficiency and Accuracy in Large-Scale Systems [0.9752323911408618]
大規模コア参照解決は自然言語処理において大きな課題となる。
本稿では,大規模アプリケーションに適したエンド・ツー・エンド・ニューラル・コア・レゾリューションシステムを提案する。
本システムでは,テキスト中のコア参照リンクを効率よく識別・解決し,計算オーバーヘッドを最小限に抑える。
論文 参考訳(メタデータ) (2025-04-08T09:06:52Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Query Optimization for Parametric Knowledge Refinement in Retrieval-Augmented Large Language Models [26.353428245346166]
Extract-Refine-Retrieve-Read (ERRR)フレームワークは、Retrieval-Augmented Generation (RAG)システムにおける事前検索情報ギャップを埋めるように設計されている。
RAGで使用される従来のクエリ最適化手法とは異なり、ERRRフレームワークはLarge Language Models (LLM) から知識を抽出することから始まる。
論文 参考訳(メタデータ) (2024-11-12T14:12:45Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - REP: Resource-Efficient Prompting for On-device Continual Learning [23.92661395403251]
オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。
CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れていると一般的に信じられている。
本稿では,プロンプトベースのリハーサルフリー手法を特化して資源効率を向上させるREPを紹介する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - DNS-Rec: Data-aware Neural Architecture Search for Recommender Systems [79.76519917171261]
本稿では,SRS(Sequential Recommender Systems)における計算オーバーヘッドと資源非効率性について述べる。
本稿では, プルーニング法と高度なモデル設計を組み合わせた革新的な手法を提案する。
我々の主な貢献は、リコメンダシステム(DNS-Rec)のためのデータ対応ニューラルアーキテクチャ検索の開発である。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Towards A Flexible Accuracy-Oriented Deep Learning Module Inference Latency Prediction Framework for Adaptive Optimization Algorithms [0.49157446832511503]
本稿では,ディープラーニングモジュール推論遅延予測フレームワークを提案する。
DNNモジュールごとに複数のRMをトレーニングするために、カスタマイズ可能な入力パラメータのセットをホストする。
トレーニングされたRMのセットを自動的に選択し、全体的な予測精度が最高になる。
論文 参考訳(メタデータ) (2023-12-11T15:15:48Z) - TranDRL: A Transformer-Driven Deep Reinforcement Learning Enabled Prescriptive Maintenance Framework [58.474610046294856]
産業システムは、運用効率を高め、ダウンタイムを減らすための信頼性の高い予測保守戦略を要求する。
本稿では,Transformerモデルに基づくニューラルネットワークと深部強化学習(DRL)アルゴリズムの機能を活用し,システムの保守動作を最適化する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T02:27:54Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。