論文の概要: MegBA: A High-Performance and Distributed Library for Large-Scale Bundle
Adjustment
- arxiv url: http://arxiv.org/abs/2112.01349v1
- Date: Thu, 2 Dec 2021 15:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 21:41:41.218533
- Title: MegBA: A High-Performance and Distributed Library for Large-Scale Bundle
Adjustment
- Title(参考訳): MegBA: 大規模バンドル調整のための高性能で分散ライブラリ
- Authors: Jie Ren, Wenteng Liang, Ran Yan, Luo Mai, Shiwen Liu, Xiao Liu
- Abstract要約: MegBAは大規模バンドル調整のための高性能で分散ライブラリである。
パブリックな大規模BAベンチマークにおいて、最先端のBAライブラリを最大33倍と3.3倍の性能で上回ることができる。
- 参考スコア(独自算出の注目度): 4.719974460724886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Bundle Adjustment (BA) is the key for many 3D vision applications
(e.g., Structure-from-Motion and SLAM). Though important, large-scale BA is
still poorly supported by existing BA libraries (e.g., Ceres and g2o). These
libraries under-utilise accelerators (i.e., GPUs), and they lack algorithms to
distribute BA computation constrained by the memory on a single device.
In this paper, we propose MegBA, a high-performance and distributed library
for large-scale BA. MegBA has a novel end-to-end vectorised BA algorithm that
can fully exploit the massive parallel cores on GPUs, thus speeding up the
entire BA computation. It also has a novel distributed BA algorithm that can
automatically partition BA problems, and solve BA sub-problems using
distributed GPUs. The GPUs synchronise intermediate solving state using
network-efficient collective communication, and the synchronisation is designed
to minimise communication cost. MegBA has a memory-efficient GPU runtime and
exposes g2o-compatible APIs. Experiments show that MegBA can out-perform
state-of-the-art BA libraries (i.e., Ceres and DeepLM) by up to 33x and 3.3x
respectively, in public large-scale BA benchmarks. The code of MegBA is
available at: \url{https://github.com/MegviiRobot/MegBA}.
- Abstract(参考訳): 大規模なバンドル調整(BA)は多くの3D視覚アプリケーション(Structure-from-MotionやSLAMなど)の鍵となる。
重要なことではあるが、大規模な BA は既存の BA ライブラリ (例えば Ceres や g2o) ではまだサポートされていない。
これらのライブラリはアクセラレーター(GPU)をアンダーユースし、単一のデバイス上でメモリによって制限されたBA計算を分散するアルゴリズムを欠いている。
本稿では,大規模BAのための高性能分散ライブラリであるMegBAを提案する。
MegBAには、GPU上の巨大な並列コアを完全に活用し、BA計算全体を高速化する、新しいエンドツーエンドベクトル化BAアルゴリズムがある。
また、BA問題を自動的に分割し、分散GPUを用いてBAサブプロブレムを解決する、新しい分散BAアルゴリズムも備えている。
GPUは、ネットワーク効率のよい集団通信を用いて中間解決状態を同期させ、通信コストを最小限に抑えるように設計されている。
MegBAはメモリ効率のよいGPUランタイムを持ち、g2o互換APIを公開する。
実験により、MegBAは、パブリックな大規模BAベンチマークにおいて、最先端のBAライブラリ(すなわち、CeresとDeepLM)を最大33倍、そして3.3倍の性能で上回ることができることが示された。
MegBAのコードは: \url{https://github.com/MegviiRobot/MegBA}.comで公開されている。
関連論文リスト
- XLB: A Differentiable Massively Parallel Lattice Boltzmann Library in
Python [0.0]
JAX プラットフォームをベースとした Python ベースの差別化可能な LBM ライブラリである XLB ライブラリを紹介する。
XLBの差別化性とデータ構造は、広範囲にわたるJAXベースの機械学習エコシステムと互換性がある。
XLBは数十億のセルでのシミュレーション処理に成功し、毎秒ギガスケールの格子更新を実現している。
論文 参考訳(メタデータ) (2023-11-27T18:50:37Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - CPU- and GPU-based Distributed Sampling in Dirichlet Process Mixtures
for Large-scale Analysis [11.071895608242675]
Dirichlet Process Mixture Model (DPMM) は、モデルの複雑さをデータに適用するための原則的なアプローチである。
その可能性と数学的優雅さにもかかわらず、DPMMはまだ実践者が広く採用する主流のツールにはなっていない。
そこで我々は,スケーラブルなDPMMM推論のための,新しい,使いやすい統計ソフトウェアパッケージを提案する。
論文 参考訳(メタデータ) (2022-04-19T16:35:44Z) - ReservoirComputing.jl: An Efficient and Modular Library for Reservoir
Computing Models [0.17499351967216337]
ReservoirComputing.jlは、貯水池コンピューティングモデルのためのオープンソースのJuliaライブラリである。
コードとドキュメントは、MITライセンス下でGithubにホストされている。
論文 参考訳(メタデータ) (2022-04-08T13:33:09Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data
Analytics [0.0]
HeATは、大規模並列処理のための配列ベースの数値プログラミングフレームワークで、簡単に使えるNumPyライクなAPIがある。
HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。
同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。
論文 参考訳(メタデータ) (2020-07-27T13:33:17Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z) - GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy
Efficient Inference [1.6534387701595552]
本稿では,最先端BERTモデルの32ビット浮動小数点パラメータの大部分(典型的には99.9%)を圧縮するモデル量子化手法であるGOBOを提案する。
他の量子化法とは異なり、GOBOは量子化誤差を補うために微調整や再訓練を必要としない。
GOBOアーキテクチャは計算時でも重量の大部分を3bで維持する。
論文 参考訳(メタデータ) (2020-05-08T03:59:53Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。
本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。
理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文 参考訳(メタデータ) (2020-02-21T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。