論文の概要: Reasoning Language Model Inference Serving Unveiled: An Empirical Study
- arxiv url: http://arxiv.org/abs/2510.18672v1
- Date: Tue, 21 Oct 2025 14:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.730684
- Title: Reasoning Language Model Inference Serving Unveiled: An Empirical Study
- Title(参考訳): 未知の言語モデル推論の推論:実証的研究
- Authors: Qi Li, Junpan Wu, Xiang Liu, Yuxin Wang, Zeyu Li, Zhenheng Tang, Yuhan Chen, Shaohuai Shi, Xiaowen Chu,
- Abstract要約: RLLM(Reasoning Large Language Model)は、数学やコーディングといった複雑な推論タスクの解決において、競争力があることが証明されている。
しかし、RLLMの性能と動作は未解明のままであり、現実のシナリオにおけるRLLMの展開と利用を損なう可能性がある。
- 参考スコア(独自算出の注目度): 33.64210782569678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reasoning large language model (RLLM) has been proven competitive in solving complex reasoning tasks such as mathematics, coding, compared to general LLM. However, the serving performance and behavior of RLLM remains unexplored, which may undermine the deployment and utilization of RLLM in real-world scenario. To close this gap, in this paper, we conduct a comprehensive study of RLLM service. We first perform a pilot study on comparing the serving performance between RLLM and traditional LLM and reveal that there are several distinct differences regarding serving behavior: (1) significant memory usage and fluctuations; (2) straggler requests; (3) adaptive running time; (4) domain preference. Then we further investigate whether existing inference optimization techniques are valid for RLLM. Our main takeaways are that model quantization methods and speculative decoding can improve service system efficiency with small compromise to RLLM accuracy, while prefix caching, KV cache quantization may even degrade accuracy or serving performance for small RLLM. Lastly, we conduct evaluation under real world workload modeled by Gamma distribution to verify our findings. Empirical results of real world workload evaluation across different dataset are aligned with our main findings regarding RLLM serving. We hope our work can provide the research community and industry with insights to advance RLLM inference serving.
- Abstract(参考訳): 推論大言語モデル(RLLM)は、数学やコーディングといった複雑な推論タスクを一般のLLMと比較して解く上で、競争力があることが証明されている。
しかし、RLLMの性能と動作は未解明のままであり、現実のシナリオにおけるRLLMの展開と利用を損なう可能性がある。
このギャップを埋めるために、本稿では、RLLMサービスの包括的な研究を行う。
まず、RLLMと従来のLLMのサービス性能を比較するパイロット実験を行い、サービス動作には、(1)重要なメモリ使用量と変動、(2)ストラグラー要求、(3)適応ランニング時間、(4)ドメイン嗜好など、いくつかの異なる相違点があることを明らかにする。
さらに,既存の推論最適化手法がRLLMに有効かどうかについても検討する。
我々の主な特徴は、モデル量子化手法と投機的復号化により、RLLMの精度に小さな妥協でサービスシステムの効率を向上できる一方で、プレフィックスキャッシュ、KVキャッシュの量子化は、RLLMの精度を低下させたり、小型のRLLMの性能を向上させることができることである。
最後に,ガンマ分布をモデル化した実世界の作業負荷下で評価を行い,その結果を検証した。
異なるデータセット間での実世界のワークロード評価の実証結果は、RLLM提供に関する主要な発見と一致しています。
我々の研究が研究コミュニティや業界に、RLLM推論の提供を進めるための洞察を与えてくれることを願っています。
関連論文リスト
- Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文 参考訳(メタデータ) (2025-09-20T13:11:28Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。
LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。
特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。
次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文 参考訳(メタデータ) (2025-05-01T15:07:32Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning [14.224921308101624]
本稿では,関係モデリングのための新しい分布認識ロバスト学習フレームワーク(DaRL)を提案する。
DaRLはAlipayの保険商品検索のためにオンラインで展開されている。
論文 参考訳(メタデータ) (2024-12-17T03:10:47Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。