論文の概要: TTK is Getting MPI-Ready
- arxiv url: http://arxiv.org/abs/2310.08339v2
- Date: Mon, 15 Apr 2024 09:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:37:19.042542
- Title: TTK is Getting MPI-Ready
- Title(参考訳): TTKがMPI対応へ
- Authors: Eve Le Guillou, Michael Will, Pierre Guillou, Jonas Lukasczyk, Pierre Fortin, Christoph Garth, Julien Tierny,
- Abstract要約: 本稿では,Topology ToolKit(TTK)をメッセージパッシングインタフェース(MPI)で分散並列化するための技術基盤について述べる。
通信要求に応じて,TTKがサポートする分散メモリトポロジカルアルゴリズムの分類法を提供する。
性能解析の結果、並列効率は20%から80%(アルゴリズムに依存している)であり、我々のフレームワークによって導入されたMPI固有のプリコンディショニングでは計算時間オーバーヘッドが無視できることがわかった。
- 参考スコア(独自算出の注目度): 6.4769191719603665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This system paper documents the technical foundations for the extension of the Topology ToolKit (TTK) to distributed-memory parallelism with the Message Passing Interface (MPI). While several recent papers introduced topology-based approaches for distributed-memory environments, these were reporting experiments obtained with tailored, mono-algorithm implementations. In contrast, we describe in this paper a versatile approach (supporting both triangulated domains and regular grids) for the support of topological analysis pipelines, i.e. a sequence of topological algorithms interacting together. While developing this extension, we faced several algorithmic and software engineering challenges, which we document in this paper. We describe an MPI extension of TTK's data structure for triangulation representation and traversal, a central component to the global performance and generality of TTK's topological implementations. We also introduce an intermediate interface between TTK and MPI, both at the global pipeline level, and at the fine-grain algorithmic level. We provide a taxonomy for the distributed-memory topological algorithms supported by TTK, depending on their communication needs and provide examples of hybrid MPI+thread parallelizations. Performance analyses show that parallel efficiencies range from 20% to 80% (depending on the algorithms), and that the MPI-specific preconditioning introduced by our framework induces a negligible computation time overhead. We illustrate the new distributed-memory capabilities of TTK with an example of advanced analysis pipeline, combining multiple algorithms, run on the largest publicly available dataset we have found (120 billion vertices) on a cluster with 64 nodes (for a total of 1536 cores). Finally, we provide a roadmap for the completion of TTK's MPI extension, along with generic recommendations for each algorithm communication category.
- Abstract(参考訳): 本システムでは,Topology ToolKit (TTK) の分散並列化への拡張の技術的基盤をMessage Passing Interface (MPI) で記述する。
最近のいくつかの論文では、トポロジに基づく分散メモリ環境のアプローチが紹介されているが、これらは、調整された単アルゴリズムの実装で得られた報告実験である。
対照的に、この論文では、トポロジ解析パイプライン(つまり、相互作用するトポロジ的アルゴリズムの列)をサポートするために、多元的アプローチ(三角領域と正規格子の両方をサポートする)を述べる。
この拡張を開発している間、私たちはいくつかのアルゴリズムとソフトウェア工学の課題に直面しました。
本稿では,TTKのトポロジ的実装のグローバルな性能と一般化の中心的構成要素である三角表現とトラバーサルのためのデータ構造のMPI拡張について述べる。
また,TTKとMPIの中間インタフェースをグローバルパイプラインレベルでも,微粒アルゴリズムレベルでも導入する。
TTKがサポートする分散メモリトポロジカルアルゴリズムの分類法を,通信要求に応じて提供し,ハイブリッドMPI+スレッド並列化の例を示す。
性能分析の結果、並列効率は20%から80%(アルゴリズムに依存する)であり、我々のフレームワークによって導入されたMPI固有のプリコンディショニングでは計算時間オーバーヘッドが無視できることがわかった。
我々は、TTKの新たな分散メモリ機能と、複数のアルゴリズムを組み合わせた高度な分析パイプラインの例を説明し、64ノード(合計1536コア)のクラスタ上で発見された最大の公開データセット(120億頂点)上で動作する。
最後に,TTKのMPI拡張を完了するためのロードマップと,アルゴリズム通信カテゴリ毎の一般的なレコメンデーションを提供する。
関連論文リスト
- Sequential and Shared-Memory Parallel Algorithms for Partitioned Local
Depths [0.0]
PaLDは相対距離に基づいて対関係の強さを同定する手法である。
性能最適化戦略を導入し、ベースラインのシーケンシャルな実装に対して、最大29ドル以上のシーケンシャルなスピードアップを実現した。
論文 参考訳(メタデータ) (2023-07-31T13:32:39Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Exploring Techniques for the Analysis of Spontaneous Asynchronicity in
MPI-Parallel Applications [0.8889304968879161]
マイクロベンチマークと現実的なプロキシアプリケーションを,2つの異なるスーパーコンピュータプラットフォーム上で通常の計算通信構造で実行します。
完全MPIトレースよりもはるかに小さいデータセットから,デシンクロナイゼーションパターンを容易に識別できることを示す。
論文 参考訳(メタデータ) (2022-05-27T13:19:07Z) - Efficient Direct-Connect Topologies for Collective Communications [2.9394897655215555]
ワークロードに関連する帯域幅のトレードオフに対して,レイテンシに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。
提案手法は,与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し,与えられたワークロードの適切なトポロジとスケジュールを特定する。
論文 参考訳(メタデータ) (2022-02-07T16:59:05Z) - A Technical Survey and Evaluation of Traditional Point Cloud Clustering
Methods for LiDAR Panoptic Segmentation [11.138159123596669]
LiDARのパノプティカルセグメンテーションは、自動運転のための新しい技術課題である。
既存のセマンティックセグメンテーションネットワークを用いたハイブリッド手法を提案し,セマンティック情報を抽出する。
パン光学セグメンテーションリーダーボード上で、すべてのエンドツーエンドディープラーニングソリューションの中で、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-21T14:59:02Z) - PointFlow: Flowing Semantics Through Points for Aerial Image
Segmentation [96.76882806139251]
本論文では,FPN(Feature Pyramid Network)フレームワークに基づく点親和性伝播モジュールであるPointFlowを提案する。
密接な親和性学習ではなく、隣接する特徴間の選択された点にスパース親和性マップを生成する。
3つの異なる空中セグメンテーションデータセットの実験結果から,提案手法は最先端の汎用セグメンテーション法よりも効率的かつ効率的であることが示唆された。
論文 参考訳(メタデータ) (2021-03-11T09:42:32Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z) - Heterogeneous Network Representation Learning: A Unified Framework with
Survey and Benchmark [57.10850350508929]
我々は、異種ネットワーク埋め込み(HNE)に関する既存の研究を要約し、評価するための統一的なフレームワークを提供することを目指している。
最初のコントリビューションとして、既存のHNEアルゴリズムのメリットを体系的に分類し分析するための一般的なパラダイムを提供する。
第2のコントリビューションとして、さまざまなソースから、スケール、構造、属性/ラベルの可用性などに関するさまざまな特性を備えた4つのベンチマークデータセットを作成します。
第3のコントリビューションとして、13の人気のあるHNEアルゴリズムに対するフレンドリなインターフェースを作成し、複数のタスクと実験的な設定に対して、それらの全周比較を提供する。
論文 参考訳(メタデータ) (2020-04-01T03:42:11Z) - Data Structures & Algorithms for Exact Inference in Hierarchical
Clustering [41.24805506595378]
本稿では,新しいトレリスデータ構造に基づく階層クラスタリングにおける表現型推論のための動的プログラミングアルゴリズムを提案する。
我々のアルゴリズムは時間と空間に比例してN$要素のパワーセットをスケールし、これは(2N-3)! 可能な階層のそれぞれを明示的に考慮するよりも指数関数的に効率的である。
論文 参考訳(メタデータ) (2020-02-26T17:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。