論文の概要: Charon: A Unified and Fine-Grained Simulator for Large-Scale LLM Training and Inference
- arxiv url: http://arxiv.org/abs/2605.17164v2
- Date: Tue, 19 May 2026 23:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.294687
- Title: Charon: A Unified and Fine-Grained Simulator for Large-Scale LLM Training and Inference
- Title(参考訳): Charon: 大規模LLMトレーニングと推論のための統一および微粒化シミュレータ
- Authors: Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang,
- Abstract要約: Charonは、LLMの性能を正確に予測するための、統一的でモジュラーできめ細かなシミュレータである。
実験では、Charonは異なるモデルと構成で高い精度を達成しており、全体的な予測誤差は5.35%以下である。
実践的な推論デプロイメントのケースでは、Charon氏は、エンジニアリングチューニングされたベースラインよりもシステムのスループットを向上させる構成を発見し、その重要な実世界の価値を明らかにした。
- 参考スコア(独自算出の注目度): 1.5161333492633549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying large-scale LLM training and inference with optimal performance is exceptionally challenging due to a complex design space of parallelism strategies, system optimizations, and hardware configurations. Accurate and rapid performance simulation is critical for guiding optimization efforts and system studies by validating "what-if" Hooker Figure hypotheses. To address this, we introduce Charon, a unified, modular, and fine-grained simulator for accurately predicting LLM performance. Experiments show Charon achieves high accuracy across different models and configurations, with an overall prediction error consistently under 5.35%, and even under 3.74% for training with a large-scale GPU cluster. In a practical inference deployment case, Charon discovered a configuration that improved system throughput over an engineering-tuned baseline, demonstrating its significant real-world value.
- Abstract(参考訳): 並列性戦略、システム最適化、ハードウェア構成の複雑な設計空間のため、大規模LLMトレーニングと最適性能による推論の展開は極めて困難である。
Hooker Figure の仮説を検証することによって,最適化の取り組みとシステム研究を導く上で,高精度かつ迅速な性能シミュレーションが重要である。
そこで我々は,LLM性能を正確に予測するための,統一的でモジュール化された,きめ細かなシミュレータCharonを紹介する。
実験によると、Charonはさまざまなモデルと構成で高い精度を実現しており、全体的な予測エラーは5.35%以下、大規模GPUクラスタでのトレーニングでは3.74%以下である。
実践的な推論デプロイメントのケースでは、Charon氏は、エンジニアリングチューニングされたベースラインよりもシステムのスループットを向上させる構成を発見し、その重要な実世界の価値を明らかにした。
関連論文リスト
- Airfoil shape optimization via coherent Ising machine [10.603201858310957]
本稿では,翼形状最適化をハードウェア準拠の非制約バイナリ最適化に変換するフレームワークを提案する。
このフレームワークは3桁の計算スピードアップで大域的な最適化を達成している。
この研究は、エンジニアリング最適化のための実用的で量子強化されたパラダイムを実証している。
論文 参考訳(メタデータ) (2026-03-11T08:20:28Z) - The Chicken and Egg Dilemma: Co-optimizing Data and Model Configurations for LLMs [86.27977008139435]
JoBSは、ベイジアン最適化を支援するために、スケーリング法則にインスパイアされたパフォーマンス予測器を使用するアプローチである。
JoBSの平均的後悔を調査し、後悔を最小限に抑えるために最適な予算配分を考案する。
論文 参考訳(メタデータ) (2026-02-09T07:33:40Z) - It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs [15.263422862969803]
大規模言語モデルのトレーニング時間圧縮アルゴリズムであるBackSlashを導入する。
GGモデルに基づくLLM最適化のための統一エンドツーエンドフレームワークを提案する。
私たちの貢献は3倍です。
DeepShapeは、トレーニング後の正規化手法で、体重分布をGGプロファイルにマッチさせる。
RF8は、GG-distributed-priord BackSlashトレーニング用に設計された、コンパクトでハードウェア効率の良い8ビット浮動小数点演算フォーマットである。
論文 参考訳(メタデータ) (2025-05-31T09:49:17Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Phantora: Maximizing Code Reuse in Simulation-based Machine Learning System Performance Estimation [13.326000659635378]
Phantoraは、機械学習トレーニングワークロードのパフォーマンス見積のための、ハイブリッドGPUクラスタシミュレータである。
MLフレームワークのソースコードをシミュレーションで直接再利用することが可能で、再実装の必要がなくなる。
Phantoraは最先端のトレーニングフレームワークを3つサポートしている。
論文 参考訳(メタデータ) (2025-05-02T22:36:24Z) - Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training [4.059735204483926]
大規模LLMトレーニングのためのトレース駆動性能モデリングおよび推定ツールキットであるLumosを提案する。
Lumosは平均3.3%のエラーで実行時間をリプレイでき、他のランタイムの詳細とともに、異なるモデルや設定で実行できる。
論文 参考訳(メタデータ) (2025-04-12T18:43:24Z) - Hyperspherical Normalization for Scalable Deep Reinforcement Learning [57.016639036237315]
SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-21T08:17:24Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。