論文の概要: MegBA: A High-Performance and Distributed Library for Large-Scale Bundle
Adjustment
- arxiv url: http://arxiv.org/abs/2112.01349v1
- Date: Thu, 2 Dec 2021 15:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 21:41:41.218533
- Title: MegBA: A High-Performance and Distributed Library for Large-Scale Bundle
Adjustment
- Title(参考訳): MegBA: 大規模バンドル調整のための高性能で分散ライブラリ
- Authors: Jie Ren, Wenteng Liang, Ran Yan, Luo Mai, Shiwen Liu, Xiao Liu
- Abstract要約: MegBAは大規模バンドル調整のための高性能で分散ライブラリである。
パブリックな大規模BAベンチマークにおいて、最先端のBAライブラリを最大33倍と3.3倍の性能で上回ることができる。
- 参考スコア(独自算出の注目度): 4.719974460724886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Bundle Adjustment (BA) is the key for many 3D vision applications
(e.g., Structure-from-Motion and SLAM). Though important, large-scale BA is
still poorly supported by existing BA libraries (e.g., Ceres and g2o). These
libraries under-utilise accelerators (i.e., GPUs), and they lack algorithms to
distribute BA computation constrained by the memory on a single device.
In this paper, we propose MegBA, a high-performance and distributed library
for large-scale BA. MegBA has a novel end-to-end vectorised BA algorithm that
can fully exploit the massive parallel cores on GPUs, thus speeding up the
entire BA computation. It also has a novel distributed BA algorithm that can
automatically partition BA problems, and solve BA sub-problems using
distributed GPUs. The GPUs synchronise intermediate solving state using
network-efficient collective communication, and the synchronisation is designed
to minimise communication cost. MegBA has a memory-efficient GPU runtime and
exposes g2o-compatible APIs. Experiments show that MegBA can out-perform
state-of-the-art BA libraries (i.e., Ceres and DeepLM) by up to 33x and 3.3x
respectively, in public large-scale BA benchmarks. The code of MegBA is
available at: \url{https://github.com/MegviiRobot/MegBA}.
- Abstract(参考訳): 大規模なバンドル調整(BA)は多くの3D視覚アプリケーション(Structure-from-MotionやSLAMなど)の鍵となる。
重要なことではあるが、大規模な BA は既存の BA ライブラリ (例えば Ceres や g2o) ではまだサポートされていない。
これらのライブラリはアクセラレーター(GPU)をアンダーユースし、単一のデバイス上でメモリによって制限されたBA計算を分散するアルゴリズムを欠いている。
本稿では,大規模BAのための高性能分散ライブラリであるMegBAを提案する。
MegBAには、GPU上の巨大な並列コアを完全に活用し、BA計算全体を高速化する、新しいエンドツーエンドベクトル化BAアルゴリズムがある。
また、BA問題を自動的に分割し、分散GPUを用いてBAサブプロブレムを解決する、新しい分散BAアルゴリズムも備えている。
GPUは、ネットワーク効率のよい集団通信を用いて中間解決状態を同期させ、通信コストを最小限に抑えるように設計されている。
MegBAはメモリ効率のよいGPUランタイムを持ち、g2o互換APIを公開する。
実験により、MegBAは、パブリックな大規模BAベンチマークにおいて、最先端のBAライブラリ(すなわち、CeresとDeepLM)を最大33倍、そして3.3倍の性能で上回ることができることが示された。
MegBAのコードは: \url{https://github.com/MegviiRobot/MegBA}.comで公開されている。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z) - Bundle Adjustment in the Eager Mode [14.13835018035969]
我々はPyPoseとシームレスに統合された、熱心に動く Bundle 調整フレームワークを提案する。
提案手法は,2次最適化のために設計されたGPUアクセラレーション,微分可能,スパース演算,リー群およびリー代数演算,線形解法を含む。
提案手法は, GTSAM, g$2$o, Ceresと比較して平均18.5$times$, 22$times$, 23$times$の平均速度アップを実現している。
論文 参考訳(メタデータ) (2024-09-18T17:59:29Z) - XLB: A differentiable massively parallel lattice Boltzmann library in Python [0.0]
JAX プラットフォームをベースとした Python ベースの差別化可能な LBM ライブラリである XLB ライブラリを紹介する。
XLBの差別化性とデータ構造は、広範囲にわたるJAXベースの機械学習エコシステムと互換性がある。
XLBは数十億のセルでのシミュレーション処理に成功し、毎秒ギガスケールの格子更新を実現している。
論文 参考訳(メタデータ) (2023-11-27T18:50:37Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - CPU- and GPU-based Distributed Sampling in Dirichlet Process Mixtures
for Large-scale Analysis [11.071895608242675]
Dirichlet Process Mixture Model (DPMM) は、モデルの複雑さをデータに適用するための原則的なアプローチである。
その可能性と数学的優雅さにもかかわらず、DPMMはまだ実践者が広く採用する主流のツールにはなっていない。
そこで我々は,スケーラブルなDPMMM推論のための,新しい,使いやすい統計ソフトウェアパッケージを提案する。
論文 参考訳(メタデータ) (2022-04-19T16:35:44Z) - ReservoirComputing.jl: An Efficient and Modular Library for Reservoir
Computing Models [0.17499351967216337]
ReservoirComputing.jlは、貯水池コンピューティングモデルのためのオープンソースのJuliaライブラリである。
コードとドキュメントは、MITライセンス下でGithubにホストされている。
論文 参考訳(メタデータ) (2022-04-08T13:33:09Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data
Analytics [0.0]
HeATは、大規模並列処理のための配列ベースの数値プログラミングフレームワークで、簡単に使えるNumPyライクなAPIがある。
HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。
同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。
論文 参考訳(メタデータ) (2020-07-27T13:33:17Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。