論文の概要: Exploring Test-time Scaling via Prediction Merging on Large-Scale Recommendation
- arxiv url: http://arxiv.org/abs/2512.07650v1
- Date: Mon, 08 Dec 2025 15:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.947471
- Title: Exploring Test-time Scaling via Prediction Merging on Large-Scale Recommendation
- Title(参考訳): 大規模レコメンデーションにおける予測マージによるテスト時間スケーリングの探索
- Authors: Fuyuan Lyu, Zhentai Chen, Jingyan Jiang, Lingjie Li, Xing Tang, Xiuqiang He, Xue Liu,
- Abstract要約: テスト期間中に計算資源を効率的に活用し、スケールアップする方法は、まだ未定である。
DLRSにテスト時間スケーリングを適用する上で重要なポイントは、多様だが有意義なアウトプットを効果的に生成することにある。
オンラインデプロイ時の並列サーバの増加により、テスト時間のスケーリングはシームレスに加速できる。
- 参考スコア(独自算出の注目度): 13.057539100440634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the success of language models (LM), scaling up deep learning recommendation systems (DLRS) has become a recent trend in the community. All previous methods tend to scale up the model parameters during training time. However, how to efficiently utilize and scale up computational resources during test time remains underexplored, which can prove to be a scaling-efficient approach and bring orthogonal improvements in LM domains. The key point in applying test-time scaling to DLRS lies in effectively generating diverse yet meaningful outputs for the same instance. We propose two ways: One is to explore the heterogeneity of different model architectures. The other is to utilize the randomness of model initialization under a homogeneous architecture. The evaluation is conducted across eight models, including both classic and SOTA models, on three benchmarks. Sufficient evidence proves the effectiveness of both solutions. We further prove that under the same inference budget, test-time scaling can outperform parameter scaling. Our test-time scaling can also be seamlessly accelerated with the increase in parallel servers when deployed online, without affecting the inference time on the user side. Code is available.
- Abstract(参考訳): 言語モデル(LM)の成功に触発されて、ディープラーニングレコメンデーションシステム(DLRS)のスケールアップが、近年のコミュニティのトレンドとなっている。
以前のメソッドはすべて、トレーニング期間中にモデルのパラメータをスケールアップする傾向があります。
しかし、テスト期間中に計算資源を効率的に利用し、スケールアップする方法は未定であり、スケーリング効率の良いアプローチであることが証明され、LMドメインの直交改善がもたらされる。
DLRSにテスト時間スケーリングを適用する上で重要な点は、同じインスタンスに対して多様だが有意義なアウトプットを効果的に生成することにある。
ひとつは、異なるモデルアーキテクチャの不均一性を探求することである。
もう1つは、同質なアーキテクチャの下でモデル初期化のランダム性を利用することである。
評価は古典モデルとSOTAモデルの両方を含む8つのモデルで3つのベンチマークで行われる。
十分な証拠は両方の解の有効性を証明している。
さらに、同じ推論予算の下では、テストタイムのスケーリングがパラメータのスケーリングより優れていることを証明します。
テストタイムのスケーリングは、オンラインデプロイ時の並列サーバの増加によって、ユーザ側の推論時間に影響を与えることなく、シームレスに高速化することが可能です。
コードは利用可能。
関連論文リスト
- Trust but Verify! A Survey on Verification Design for Test-time Scaling [8.428618801719198]
テスト時スケーリング(TTS)は,大規模言語モデルのパフォーマンス向上のための新たなフロンティアとして登場した。
検証者は、復号プロセスから候補出力をスコアするのに役立つ報酬モデルとして機能する。
検証者は、素早いベースで、識別または生成モデルとして微調整することができる。
論文 参考訳(メタデータ) (2025-08-20T22:27:21Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [108.07030347318624]
より長い思考の連鎖(CoTs)によるスケーリングは、特定の領域におけるLarge Language Models(LLMs)の推論性能を損なう可能性があることを示す。
深層思考に異なる推論手法を採用するためのモデルを教えるための思考-最適スケーリング戦略を提案する。
我々のQwen2.5-32B-Instructに基づく自己改善モデルは、様々なベンチマークで他の蒸留ベースの32B o1-likeモデルより優れています。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。