Fugu-MT 論文翻訳(概要): Towards An Efficient LLM Training Paradigm for CTR Prediction

論文の概要: Towards An Efficient LLM Training Paradigm for CTR Prediction

arxiv url: http://arxiv.org/abs/2503.01001v1
Date: Sun, 02 Mar 2025 19:43:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.727554
Title: Towards An Efficient LLM Training Paradigm for CTR Prediction
Title（参考訳）: CTR予測のための効率的なLCMトレーニングパラダイムの実現に向けて
Authors: Allen Lin, Renqin Cai, Yun He, Hanchao Yu, Jing Qian, Rui Li, Qifan Wang, James Caverlee,
Abstract要約: 大型言語モデル(LLM)は従来のクリックスルーレート(CTR)予測手法よりも大幅に優れている。 CTR予測のためにLLMを訓練するために、既存の研究の多くは'sliding-window'パラダイムを採用している。本稿では,動的ターゲット分離(Dynamic Target isolation, DTI)と呼ばれる新たなトレーニングパラダイムを提案する。
参考スコア（独自算出の注目度）: 37.20013051226115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated tremendous potential as the next-generation ranking-based recommendation system. Many recent works have shown that LLMs can significantly outperform conventional click-through-rate (CTR) prediction approaches. Despite such promising results, the computational inefficiency inherent in the current training paradigm makes it particularly challenging to train LLMs for ranking-based recommendation tasks on large datasets. To train LLMs for CTR prediction, most existing studies adopt the prevalent ''sliding-window'' paradigm. Given a sequence of $m$ user interactions, a unique training prompt is constructed for each interaction by designating it as the prediction target along with its preceding $n$ interactions serving as context. In turn, the sliding-window paradigm results in an overall complexity of $O(mn^2)$ that scales linearly with the length of user interactions. Consequently, a direct adoption to train LLMs with such strategy can result in prohibitively high training costs as the length of interactions grows. To alleviate the computational inefficiency, we propose a novel training paradigm, namely Dynamic Target Isolation (DTI), that structurally parallelizes the training of $k$ (where $k >> 1$) target interactions. Furthermore, we identify two major bottlenecks - hidden-state leakage and positional bias overfitting - that limit DTI to only scale up to a small value of $k$ (e.g., 5) then propose a computationally light solution to effectively tackle each. Through extensive experiments on three widely adopted public CTR datasets, we empirically show that DTI reduces training time by an average of $\textbf{92%}$ (e.g., from $70.5$ hrs to $5.31$ hrs), without compromising CTR prediction performance.
Abstract（参考訳）: 大規模言語モデル(LLM)は、次世代のランキングベースレコメンデーションシステムとして大きな可能性を秘めている。近年の多くの研究により、LLMは従来のクリックスルーレート(CTR)予測手法よりも大幅に優れていることが示されている。このような有望な結果にもかかわらず、現在のトレーニングパラダイムに固有の計算の非効率さは、大規模データセット上でランキングベースのレコメンデーションタスクのためのLLMのトレーニングを特に困難にしている。 CTR予測のためにLLMを訓練するために、既存の研究の多くは'sliding-window'パラダイムを採用している。ユーザインタラクションに$m$のシーケンスが与えられると、コンテキストとして機能する前の$n$のインタラクションとともに、予測ターゲットとして指定することで、各インタラクションに対してユニークなトレーニングプロンプトが構築される。逆に、スライドウインドウのパラダイムは、ユーザインタラクションの長さと線形にスケールする$O(mn^2)$の全体的な複雑さをもたらす。したがって、このような戦略でLLMを訓練するための直接的な導入は、相互作用の長さが大きくなるにつれて、トレーニングコストが著しく高くなる可能性がある。計算の非効率性を軽減するため,DTI(Dynamic Target isolation)と呼ばれる新しいトレーニングパラダイムを提案し,このパラダイムは,ターゲットインタラクションを目標とする$k$($k >> 1$)のトレーニングを構造的に並列化する。さらに、隠れ状態のリークと位置バイアスの過適合という2つの大きなボトルネックを特定し、DTIは最小値の$k$ (e g , 5)までしかスケールアップできず、それぞれに効果的に取り組むための計算学的軽量なソリューションを提案する。広く採用されている3つの公開CTRデータセットに関する広範な実験を通じて、DTIはCTR予測性能を損なうことなく、平均$\textbf{92%}$(例:70.5$ hrsから5.31$ hrs)のトレーニング時間を短縮することを示した。

関連論文リスト

Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference [44.538579135121466]
WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。 WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
論文参考訳（メタデータ） (2025-05-26T02:37:32Z)
TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge [59.57934574562651]
TRACT(Two-stage Regression-Aware fine-tuning with CoT)は、CoT推論と回帰学習を組み合わせた手法である。 4つの LLM-as-a-judge データセットと2つの LLM データセットによる実験により、TRACT が既存の手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-03-06T12:33:20Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文参考訳（メタデータ） (2024-10-07T23:48:52Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Breaking the Length Barrier: LLM-Enhanced CTR Prediction in Long Textual User Behaviors [25.086118164540974]
大型言語モデル(LLM)はクリックスルー率(CTR)予測の性能を向上させるために用いられる。ユーザシーケンスが長くなるにつれて、LLMの現在の効率は数十億のユーザやアイテムのトレーニングに不十分である。我々は,LLMに基づくCTRモデリングの効率を高めるために,行動集約階層(BAHE)を提案する。
論文参考訳（メタデータ） (2024-03-28T12:05:15Z)
Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文参考訳（メタデータ） (2024-03-13T17:58:57Z)
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。私たちのフレームワークは4つの重要なコンポーネントを強調しています。逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2023-10-31T16:24:17Z)
Generalization Bounds for Adversarial Contrastive Learning [10.893632710192016]
我々は、ACLの一般化性能を解析するために、Radecher複雑性を用いる。本理論は, 下流タスクの対向リスクの平均値は, 上流タスクの対向的無監督リスクによって上限付けられることを示す。
論文参考訳（メタデータ） (2023-02-21T12:44:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。