Fugu-MT 論文翻訳(概要): Astra: Efficient and Money-saving Automatic Parallel Strategies Search on Heterogeneous GPUs

論文の概要: Astra: Efficient and Money-saving Automatic Parallel Strategies Search on Heterogeneous GPUs

arxiv url: http://arxiv.org/abs/2502.13480v1
Date: Wed, 19 Feb 2025 07:08:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.875432
Title: Astra: Efficient and Money-saving Automatic Parallel Strategies Search on Heterogeneous GPUs
Title（参考訳）: Astra: ヘテロジニアスGPUによる効率的かつ省エネな並列戦略検索
Authors: Peiran Wang, Haibing Li, Fu Haohan, Shiyong Li, Yanpeng Wang, Dou Shen,
Abstract要約: ヘテロジニアスGPU上での自動並列戦略探索フレームワークAstraを導入する。 Astraは、両方のGPU構成検索空間における効率-最適並列戦略を探索する。ついにAstraは、貯金に関する自動並行戦略検索を最初に提案した。
参考スコア（独自算出の注目度）: 2.442376160115842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce an efficient and money-saving automatic parallel strategies search framework on heterogeneous GPUs: Astra. First, Astra searches for the efficiency-optimal parallel strategy in both GPU configurations search space (GPU types and GPU numbers) and parallel parameters search space. Then, Astra also provides the solution on heterogeneous GPUs by mathematically modeling the time consumption of heterogeneous training. At last, Astra is the first to propose the automatic parallel strategy search on money-saving. The experiment results demonstrate that Astra can achieve better throughput than expert-designed strategies. The search time cost for Astra can also be limited to 1.27 seconds in a single-GPU setting and less than 1.35 minutes in a heterogeneous-GPU setting on average with an accuracy of over 95%.
Abstract（参考訳）: 本稿では,ヘテロジニアスGPU上での自動並列戦略探索フレームワークであるAstraについて紹介する。まず、AstraはGPU設定検索空間(GPUタイプとGPU番号)と並列パラメータ検索空間の両方において効率-最適並列戦略を探索する。次に、Astraは異種GPUの時間消費を数学的にモデル化することで、異種GPUのソリューションも提供する。ついにAstraは、貯金に関する自動並行戦略検索を最初に提案した。実験の結果、Astraは専門家が設計した戦略よりも優れたスループットを達成できることが示された。 Astraの検索時間は1つのGPU設定で1.27秒、平均95%以上の精度で1.35分未満に制限できる。

関連論文リスト

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文参考訳（メタデータ） (2026-02-10T16:18:04Z)
Scaling Behaviors of Evolutionary Algorithms on GPUs: When Does Parallelism Pay Off? [43.96509049196842]
進化的アルゴリズム(EA)はグラフィックス処理ユニット(GPU)に実装され、並列処理能力を活用して効率を向上させる。我々は,GPU並列処理が,単純な加速度測定以上のEAの挙動をどのように変化させるかを検討する。その結果,GPUアクセラレーションの影響は多種多様であり,アルゴリズム構造に強く依存していることが判明した。
論文参考訳（メタデータ） (2026-01-26T12:55:21Z)
Towards Execution-Grounded Automated AI Research [106.90422658528819]
実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
論文参考訳（メタデータ） (2026-01-20T22:35:44Z)
AutoDAN-Reasoning: Enhancing Strategies Exploration based Jailbreak Attacks with Test-Time Scaling [54.47844626555395]
AutoDAN-Turboは生涯学習エージェントを使用して、攻撃戦略の豊富なライブラリをゼロから構築する。非常に効果的ではあるが、そのテスト時間生成プロセスは戦略をサンプリングし、対応する1つの攻撃プロンプトを生成する。本稿では,テスト時間スケーリングによるAutoDAN-Turboの攻撃性能の向上を提案する。
論文参考訳（メタデータ） (2025-10-06T21:16:09Z)
A Parallel CPU-GPU Framework for Cost-Bounded DFS with Applications to IDA* and BTS [13.186524200050957]
本稿では,深度第一探索におけるGPU計算手法を提案する。これは、Iterative Deepening A* (IDA*)アルゴリズムの拡張であるemphsynchronous IDA*のようなアルゴリズムを作成するために使用される。本研究では, 3x3 の Rubik Cube と 4x4 のスライディングタイルパズル (STP) に対するアプローチを評価し,GPU 操作を DFS で効率的にバッチ化可能であることを示す。
論文参考訳（メタデータ） (2025-07-16T05:07:33Z)
Astraea: A Token-wise Acceleration Framework for Video Diffusion Transformers [29.130090574300635]
ビデオ拡散変換器(vDiTs)は、テキストからビデオへの生成において大きな進歩を遂げているが、その計算要求は、実用的な展開において大きな課題となっている。 Astraeaは,vDiTをベースとしたビデオ生成の最適に近い構成を,パフォーマンス目標下で検索するフレームワークである。
論文参考訳（メタデータ） (2025-06-05T14:41:38Z)
Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters [0.0]
opt-UM と opt-Brc は、Hartree-Fock のケーキュレーションを$f$型角運動量関数に拡張した。 Opt-Brc はより小さな系と高度に収縮された三価ゼータの基底集合に対して優れ、オプト-UM は大きな分子系に対して有利である。
論文参考訳（メタデータ） (2024-07-31T08:49:06Z)
HETHUB: A Distributed Training System with Heterogeneous Cluster for Large-Scale Models [17.08669201975141]
大規模モデルのトレーニングは、膨大な数のコンピューティングリソースに依存している。ひとつのタイプのGPUアクセラレータを備えた大規模クラスタを構築するのは、非常に難しい。本稿では,大規模モデルを対象としたハイブリッド並列処理を用いた分散トレーニングシステムHETHUBを提案する。
論文参考訳（メタデータ） (2024-05-25T14:36:35Z)
Hierarchical Resource Partitioning on Modern GPUs: A Reinforcement Learning Approach [1.076745840431781]
本稿では,階層的分割のセットアップと,与えられたジョブ集合からの協調スケジューリンググループの選択を包括的に協調する手法を提案する。これにより、時間共有スケジューリングに比べて最大スループットが1.87倍向上する。
論文参考訳（メタデータ） (2024-05-14T16:40:06Z)
ArchGym: An Open-Source Gymnasium for Machine Learning Assisted Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文参考訳（メタデータ） (2023-06-15T06:41:23Z)
Speed-Oblivious Online Scheduling: Knowing (Precise) Speeds is not Necessary [71.46673478666631]
我々は、無関係な(異種な)マシン上でのオンラインスケジューリングを、高速な環境で検討する。透かしアルゴリズムと非透かしアルゴリズムでは,強い可視性を示す。
論文参考訳（メタデータ） (2023-02-02T10:09:23Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
GPU Accelerated Exhaustive Search for Optimal Ensemble of Black-Box Optimization Algorithms [1.246150324257064]
ブラックボックス最適化アルゴリズムの単純なアンサンブルは,どのアルゴリズムよりも優れていることを示す。本稿では,最適アンサンブルのブラト力探索を高速化するマルチGPU最適化フレームワークを提案する。我々は、270万のモデルをトレーニングし、541,440の最適化を実行することで15を評価した。
論文参考訳（メタデータ） (2020-12-08T04:10:35Z)
Resource Allocation in Multi-armed Bandit Exploration: Overcoming Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文参考訳（メタデータ） (2020-10-31T18:19:29Z)
On Effective Parallelization of Monte Carlo Tree Search [51.15940034629022]
モンテカルロ木探索(MCTS)は、探索木を構築するためにかなりの数のロールアウトを必要とするため、計算コストがかかる。効果的な並列MCTSアルゴリズムを設計する方法は、体系的に研究されておらず、まだよく分かっていない。我々は,より効率的な並列MCTSアルゴリズムの設計に,提案する必要条件をどのように適用できるかを実証する。
論文参考訳（メタデータ） (2020-06-15T21:36:00Z)
Real-Time Semantic Segmentation via Auto Depth, Downsampling Joint Decision and Feature Aggregation [54.28963233377946]
本稿では,セグメンテーション戦略の自動化を目的として,AutoRTNetという共同検索フレームワークを提案する。具体的には,ネットワーク深度とダウンサンプリング戦略を協調的に決定するハイパーセルと,自動マルチスケール機能アグリゲーションを実現するアグリゲーションセルを提案する。
論文参考訳（メタデータ） (2020-03-31T14:02:25Z)
Optimizing Streaming Parallelism on Heterogeneous Many-Core Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文参考訳（メタデータ） (2020-03-05T21:18:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。