Fugu-MT 論文翻訳(概要): Accelerating supply chains with Ant Colony Optimization across range of hardware solutions

論文の概要: Accelerating supply chains with Ant Colony Optimization across range of hardware solutions

arxiv url: http://arxiv.org/abs/2001.08102v1
Date: Wed, 22 Jan 2020 16:09:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-07 18:29:37.311641
Title: Accelerating supply chains with Ant Colony Optimization across range of hardware solutions
Title（参考訳）: Ant Colony Optimizationによる各種ハードウェアソリューションにおけるサプライチェーンの高速化
Authors: Ivars Dzalbs, Tatiana Kalganova
Abstract要約: 本稿では,Ant Colony Optimization (ACO) を用いた実時間アウトバウンドサプライチェーン問題とその2つの並列ACOアーキテクチャによるスケーリングダイナミクスについて検討する。 Paは、並列インスタンスの数が増えるにつれて、より少ないイテレーションでより高いソリューション品質に達することができた。 SS-RouletteのようなACOベクトル化技術はC++と16コアCPUを用いて実装された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ant Colony algorithm has been applied to various optimization problems, however most of the previous work on scaling and parallelism focuses on Travelling Salesman Problems (TSPs). Although, useful for benchmarks and new idea comparison, the algorithmic dynamics does not always transfer to complex real-life problems, where additional meta-data is required during solution construction. This paper looks at real-life outbound supply chain problem using Ant Colony Optimization (ACO) and its scaling dynamics with two parallel ACO architectures - Independent Ant Colonies (IAC) and Parallel Ants (PA). Results showed that PA was able to reach a higher solution quality in fewer iterations as the number of parallel instances increased. Furthermore, speed performance was measured across three different hardware solutions - 16 core CPU, 68 core Xeon Phi and up to 4 Geforce GPUs. State of the art, ACO vectorization techniques such as SS-Roulette were implemented using C++ and CUDA. Although excellent for TSP, it was concluded that for the given supply chain problem GPUs are not suitable due to meta-data access footprint required. Furthermore, compared to their sequential counterpart, vectorized CPU AVX2 implementation achieved 25.4x speedup on CPU while Xeon Phi with its AVX512 instruction set reached 148x on PA with Vectorized (PAwV). PAwV is therefore able to scale at least up to 1024 parallel instances on the supply chain network problem solved.
Abstract（参考訳）: Ant Colonyアルゴリズムは、様々な最適化問題に適用されているが、これまでのスケーリングと並列性に関する研究のほとんどは、トラベリングセールスマン問題(TSP)に焦点を当てている。ベンチマークや新しいアイデア比較に有用であるが、アルゴリズム力学は、ソリューション構築中に追加のメタデータを必要とする複雑な実生活問題に常に移行するとは限らない。本稿では,Ant Colony Optimization (ACO) を用いた実生活のアウトバウンドサプライチェーン問題と,IAC(Independent Ant Colonies)とPA(Parallel Ants)の2つの並列ACOアーキテクチャによるスケーリングダイナミクスについて検討する。その結果,並列インスタンス数の増加に伴い,PAは少ないイテレーションでより高いソリューション品質に達することができた。さらに,16コアCPU,68コアXeon Phi,最大4Geforce GPUという,3種類のハードウェアソリューションで速度パフォーマンスを測定した。 SS-Roulette などの ACO ベクトル化技術は C++ と CUDA を用いて実装された。 TSPには優れるが、与えられたサプライチェーン問題に対してGPUはメタデータアクセスフットプリントを必要とするため不適当であると結論付けた。さらに、ベクター化されたCPU AVX2はCPU上で25.4倍の高速化を実現し、命令セットのXeon PhiはVectorized (PAwV)でPAで148倍に達した。したがって、pawvはサプライチェーンネットワーク問題において、少なくとも1024の並列インスタンスをスケールすることができる。

関連論文リスト

Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。 Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文参考訳（メタデータ） (2026-01-29T09:23:13Z)
PolyKAN: Efficient Fused GPU Operators for Polynomial Kolmogorov-Arnold Network Variants [10.239332579225522]
Kolmogorov-Arnold Networks (KAN) はマルチレイヤ・パーセプトロンよりも高い表現能力と高い解釈性を約束している。我々は,kanとその変種の最初のオープンソース実装であるPolyKANというGPUアクセラレーション演算子ライブラリを提案する。
論文参考訳（メタデータ） (2025-11-18T19:05:16Z)
PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
Tensorized Ant Colony Optimization for GPU Acceleration [14.550636773962317]
アントコロニー最適化(Ant Colony Optimization, ACO)は、旅行セールスマン問題の解決に有効であることで有名である。我々はGPUアクセラレーションの進歩を利用するために新しいAnt Colony Optimization(TensorACO)を導入する。
論文参考訳（メタデータ） (2024-04-07T09:32:14Z)
Qubit efficient quantum algorithms for the vehicle routing problem on NISQ processors [48.68474702382697]
時間窓付き車両ルーティング問題(VRPTW)は、ロジスティクス業界で直面する一般的な最適化問題である。そこで本研究では,以前に導入した量子ビット符号化方式を用いて,バイナリ変数の数を削減した。
論文参考訳（メタデータ） (2023-06-14T13:44:35Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
HEAT: A Highly Efficient and Affordable Training System for Collaborative Filtering Based Recommendation on CPUs [11.007606356081435]
協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。マルチコアCPUにSimpleXを最適化する作業はなく、パフォーマンスが制限されている。本稿では,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。
論文参考訳（メタデータ） (2023-04-14T18:07:26Z)
Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on Multi-Core CPUs [59.18990342943095]
t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。 BH t-SNEアルゴリズムは既存のCPU実装では非効率である。 Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
論文参考訳（メタデータ） (2022-12-22T06:38:40Z)
Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文参考訳（メタデータ） (2022-07-05T20:42:24Z)
Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。問題の大きさと問題グラフの次数で指数関数的に増大する。これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文参考訳（メタデータ） (2022-01-06T21:02:30Z)
Implementation of Parallel Simplified Swarm Optimization in CUDA [2.322689362836168]
最適化コンピューティングでは、インテリジェントなSwarmアルゴリズム(SIAs)が並列化に適している。本稿では,計算能力と汎用性を考慮したGPUに基づくSimplified Swarm Algorithm Optimization (PSSO)を提案する。結果から,Nの次数による時間複雑性の低減が達成され,資源プリエンプションの問題は完全に回避された。
論文参考訳（メタデータ） (2021-10-01T00:15:45Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)
Bundle Adjustment on a Graph Processor [28.915688817040778]
Graphcoreのインテリジェンス処理ユニット(IPU)のようなグラフプロセッサは、AIのための新しいコンピュータアーキテクチャの大きな波の一部である。グラフプロセッサにおいて,古典的コンピュータビジョン問題であるバンドル調整(BA)を極端に高速に解けることを示す。
論文参考訳（メタデータ） (2020-03-06T11:05:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。