論文の概要: STAGE: A Symbolic Tensor grAph GEnerator for distributed AI system co-design
- arxiv url: http://arxiv.org/abs/2511.10480v2
- Date: Fri, 14 Nov 2025 17:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:02.284819
- Title: STAGE: A Symbolic Tensor grAph GEnerator for distributed AI system co-design
- Title(参考訳): STAGE: 分散AIシステムの共同設計のためのシンボリック・テンソル・グラフ・ジェネレータ
- Authors: Changhai Man, Joongun Park, Hanjiang Wu, Huan Xu, Srinivas Sridharan, Tushar Krishna,
- Abstract要約: Symbolic(STAGE)は、高忠実度実行トレースを合成して、ワークロード実行を正確にモデル化するフレームワークである。
包括的な並列化戦略をサポートしており、LLMアーキテクチャやシステム構成の幅広い範囲を探索することができる。
- 参考スコア(独自算出の注目度): 6.182971013882298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing the performance of large language models (LLMs) on large-scale AI training and inference systems requires a scalable and expressive mechanism to model distributed workload execution. Such modeling is essential for pre-deployment system-level optimizations (e.g., parallelization strategies) and design-space explorations. While recent efforts have proposed collecting execution traces from real systems, access to large-scale infrastructure remains limited to major cloud providers. Moreover, traces obtained from existing platforms cannot be easily adapted to study future larger-scale system configurations. We introduce Symbolic Tensor grAph GEnerator(STAGE), a framework that synthesizes high-fidelity execution traces to accurately model LLM workloads. STAGE supports a comprehensive set of parallelization strategies, allowing users to systematically explore a wide spectrum of LLM architectures and system configurations. STAGE demonstrates its scalability by synthesizing high-fidelity LLM traces spanning over 32K GPUs, while preserving tensor-level accuracy in compute, memory, and communication. STAGE is publicly available to facilitate further research in distributed machine learning systems: https://github.com/astra-sim/symbolic tensor graph
- Abstract(参考訳): 大規模AIトレーニングと推論システムにおける大規模言語モデル(LLM)のパフォーマンスを最適化するには、分散ワークロードの実行をモデル化するためのスケーラブルで表現力のあるメカニズムが必要である。
このようなモデリングは、事前デプロイシステムレベルの最適化(例えば、並列化戦略)や設計空間探索に不可欠である。
最近の取り組みでは、実際のシステムから実行トレースの収集が提案されているが、大規模なインフラへのアクセスは主要なクラウドプロバイダに限られている。
さらに、既存のプラットフォームから得られたトレースは、将来の大規模システム構成の研究に容易に適応できない。
我々は,LLMワークロードを正確にモデル化するために,高忠実度実行トレースを合成するフレームワークであるSymbolic Tensor grAph GEnerator(STAGE)を紹介する。
STAGEは並列化戦略の包括的なセットをサポートしており、LLMアーキテクチャとシステム構成の幅広い範囲を体系的に探索することができる。
STAGEは、計算、メモリ、通信におけるテンソルレベルの精度を保ちながら、32K GPUにまたがる高忠実なLLMトレースを合成することによって、スケーラビリティを実証している。
STAGEは、分散機械学習システムにおけるさらなる研究を促進するために公開されている。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.6168147650666682]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。
我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。
我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文 参考訳(メタデータ) (2025-04-14T00:29:49Z) - Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。
低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。
本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文 参考訳(メタデータ) (2025-01-23T02:14:08Z) - Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。
提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。