論文の概要: Bridging Evolutionary Multiobjective Optimization and GPU Acceleration via Tensorization
- arxiv url: http://arxiv.org/abs/2503.20286v4
- Date: Mon, 14 Apr 2025 03:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 14:23:44.534692
- Title: Bridging Evolutionary Multiobjective Optimization and GPU Acceleration via Tensorization
- Title(参考訳): ブリッジング進化的多目的最適化とテンソル化によるGPU加速
- Authors: Zhenyu Liang, Hao Li, Naiwei Yu, Kebin Sun, Ran Cheng,
- Abstract要約: 進化的多目的最適化(EMO)は過去20年間に大きく進歩してきた。
従来のEMOアルゴリズムは、並列性とスケーラビリティが不十分なため、大幅な性能制限に直面している。
テンソル化手法を用いてGPU上でのEMOアルゴリズムの並列化を提案する。
実験の結果, テンソル化EMOアルゴリズムはCPUベースと比較して最大1113倍の高速化を実現していることがわかった。
- 参考スコア(独自算出の注目度): 11.508416084439443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary multiobjective optimization (EMO) has made significant strides over the past two decades. However, as problem scales and complexities increase, traditional EMO algorithms face substantial performance limitations due to insufficient parallelism and scalability. While most work has focused on algorithm design to address these challenges, little attention has been given to hardware acceleration, thereby leaving a clear gap between EMO algorithms and advanced computing devices, such as GPUs. To bridge the gap, we propose to parallelize EMO algorithms on GPUs via the tensorization methodology. By employing tensorization, the data structures and operations of EMO algorithms are transformed into concise tensor representations, which seamlessly enables automatic utilization of GPU computing. We demonstrate the effectiveness of our approach by applying it to three representative EMO algorithms: NSGA-III, MOEA/D, and HypE. To comprehensively assess our methodology, we introduce a multiobjective robot control benchmark using a GPU-accelerated physics engine. Our experiments show that the tensorized EMO algorithms achieve speedups of up to 1113x compared to their CPU-based counterparts, while maintaining solution quality and effectively scaling population sizes to hundreds of thousands. Furthermore, the tensorized EMO algorithms efficiently tackle complex multiobjective robot control tasks, producing high-quality solutions with diverse behaviors. Source codes are available at https://github.com/EMI-Group/evomo.
- Abstract(参考訳): 進化的多目的最適化(EMO)は過去20年間に大きく進歩してきた。
しかし、問題スケールと複雑さが増大するにつれて、従来のEMOアルゴリズムは並列性やスケーラビリティが不十分なため、大幅な性能制限に直面している。
ほとんどの研究はこれらの課題に対処するアルゴリズム設計に重点を置いているが、ハードウェアアクセラレーションにはほとんど注目されていないため、EMOアルゴリズムとGPUのような先進的なコンピューティングデバイスとの間に明確なギャップが残されている。
このギャップを埋めるために,テンソル化手法を用いてGPU上でのEMOアルゴリズムの並列化を提案する。
テンソル化を利用することで、EMOアルゴリズムのデータ構造と演算を簡潔なテンソル表現に変換することで、GPUコンピューティングの自動利用をシームレスに実現する。
NSGA-III, MOEA/D, HypE の3つの代表的な EMO アルゴリズムに適用することにより,提案手法の有効性を実証する。
提案手法を総合的に評価するために,GPU加速物理エンジンを用いた多目的ロボット制御ベンチマークを導入する。
実験の結果, テンソル化EMOアルゴリズムはCPUベースと比較して最大1113倍の高速化を実現し, 解の質を維持し, 人口規模を数十万に効果的に拡張した。
さらに、テンソル化EMOアルゴリズムは、複雑な多目的ロボット制御タスクに効率よく取り組み、多様な振る舞いを持つ高品質な解を生成する。
ソースコードはhttps://github.com/EMI-Group/evomo.comで入手できる。
関連論文リスト
- GPU-accelerated Evolutionary Many-objective Optimization Using Tensorized NSGA-III [13.487945730611193]
大規模多目的最適化のためのNSGA-IIIの完全テンソル化実装を提案する。
NSGA-IIIは、NSGA-IIIの正確な選択と変化のメカニズムを維持しながら、大きな加速を達成している。
その結果、NSGA-IIIは、NSGA-IIIのCPUバージョンよりも最大3629タイムのスピードアップを実現していることがわかった。
論文 参考訳(メタデータ) (2025-04-08T14:09:23Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Scaling Policy Gradient Quality-Diversity with Massive Parallelization via Behavioral Variations [4.787389127632926]
大規模並列化でスケールアップ可能な,高速で,サンプル効率のよいMEベースアルゴリズムを提案する。
実験の結果、ASCII-MEは1つのGPU上で250秒未満で、多種多様な高性能なディープニューラルネットワークポリシーを生成できることがわかった。
論文 参考訳(メタデータ) (2025-01-30T19:56:04Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Tensorized NeuroEvolution of Augmenting Topologies for GPU Acceleration [6.784939343811732]
神経進化(NeuroEvolution of Augmenting Topologies、NEAT)アルゴリズムは、神経進化の分野でかなりの認知を得ている。
本稿では、NEATアルゴリズムのテンソル化手法を導入し、その多様なネットワークトポロジの変換を可能にする。
NEATライブラリは、Gym, Brax, gymnaxなど、さまざまなベンチマーク環境をサポートしている。
論文 参考訳(メタデータ) (2024-04-02T10:20:12Z) - GPU-accelerated Evolutionary Multiobjective Optimization Using Tensorized RVEA [13.319536515278191]
本稿では,GPUアクセラレーションの進歩を活用するために,大規模な進化的参照ベクトルガイドアルゴリズム(TensorRVEA)を提案する。
大規模集団と問題次元を含む数値ベンチマークテストでは、RVEAは一貫して高い計算性能を示し、1000ドル以上のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-04-01T15:04:24Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [51.89707241449435]
本稿では,高分解能表現CNNにマルチヘッド自己認識を効率よく組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - EvoX: A Distributed GPU-accelerated Framework for Scalable Evolutionary
Computation [40.71953374838183]
EvoXは、ECアルゴリズムの自動化、分散、均一な実行に適したコンピューティングフレームワークである。
EvoXの中核には、並列化可能なECアルゴリズムの開発を合理化するユニークなプログラミングモデルがある。
EvoXは、数十の数値テスト機能から数百の強化学習タスクまで、さまざまなベンチマーク問題に対する包括的なサポートを提供する。
論文 参考訳(メタデータ) (2023-01-29T15:00:16Z) - Training Diverse High-Dimensional Controllers by Scaling Covariance
Matrix Adaptation MAP-Annealing [12.90845054806193]
シミュレーションでさまざまなニューラルネットワークコントローラを事前トレーニングすることで、ロボットはロボットの移動タスクの損傷にオンラインで適応することが可能になった。
進化戦略(ES)に基づく品質多様性アルゴリズムであるCMA-MAEは、これらの制限を持たず、標準的なQDベンチマークで最先端のパフォーマンスを達成した。
我々は高次元にスケールする3つの新しいCMA-MAE変種を提案する。
論文 参考訳(メタデータ) (2022-10-06T01:03:01Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。