Fugu-MT 論文翻訳(概要): MegBA: A High-Performance and Distributed Library for Large-Scale Bundle Adjustment

論文の概要: MegBA: A High-Performance and Distributed Library for Large-Scale Bundle Adjustment

arxiv url: http://arxiv.org/abs/2112.01349v1
Date: Thu, 2 Dec 2021 15:50:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-03 21:41:41.218533
Title: MegBA: A High-Performance and Distributed Library for Large-Scale Bundle Adjustment
Title（参考訳）: MegBA: 大規模バンドル調整のための高性能で分散ライブラリ
Authors: Jie Ren, Wenteng Liang, Ran Yan, Luo Mai, Shiwen Liu, Xiao Liu
Abstract要約: MegBAは大規模バンドル調整のための高性能で分散ライブラリである。パブリックな大規模BAベンチマークにおいて、最先端のBAライブラリを最大33倍と3.3倍の性能で上回ることができる。
参考スコア（独自算出の注目度）: 4.719974460724886
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale Bundle Adjustment (BA) is the key for many 3D vision applications (e.g., Structure-from-Motion and SLAM). Though important, large-scale BA is still poorly supported by existing BA libraries (e.g., Ceres and g2o). These libraries under-utilise accelerators (i.e., GPUs), and they lack algorithms to distribute BA computation constrained by the memory on a single device. In this paper, we propose MegBA, a high-performance and distributed library for large-scale BA. MegBA has a novel end-to-end vectorised BA algorithm that can fully exploit the massive parallel cores on GPUs, thus speeding up the entire BA computation. It also has a novel distributed BA algorithm that can automatically partition BA problems, and solve BA sub-problems using distributed GPUs. The GPUs synchronise intermediate solving state using network-efficient collective communication, and the synchronisation is designed to minimise communication cost. MegBA has a memory-efficient GPU runtime and exposes g2o-compatible APIs. Experiments show that MegBA can out-perform state-of-the-art BA libraries (i.e., Ceres and DeepLM) by up to 33x and 3.3x respectively, in public large-scale BA benchmarks. The code of MegBA is available at: \url{https://github.com/MegviiRobot/MegBA}.
Abstract（参考訳）: 大規模なバンドル調整(BA)は多くの3D視覚アプリケーション(Structure-from-MotionやSLAMなど)の鍵となる。重要なことではあるが、大規模な BA は既存の BA ライブラリ (例えば Ceres や g2o) ではまだサポートされていない。これらのライブラリはアクセラレーター(GPU)をアンダーユースし、単一のデバイス上でメモリによって制限されたBA計算を分散するアルゴリズムを欠いている。本稿では,大規模BAのための高性能分散ライブラリであるMegBAを提案する。 MegBAには、GPU上の巨大な並列コアを完全に活用し、BA計算全体を高速化する、新しいエンドツーエンドベクトル化BAアルゴリズムがある。また、BA問題を自動的に分割し、分散GPUを用いてBAサブプロブレムを解決する、新しい分散BAアルゴリズムも備えている。 GPUは、ネットワーク効率のよい集団通信を用いて中間解決状態を同期させ、通信コストを最小限に抑えるように設計されている。 MegBAはメモリ効率のよいGPUランタイムを持ち、g2o互換APIを公開する。実験により、MegBAは、パブリックな大規模BAベンチマークにおいて、最先端のBAライブラリ(すなわち、CeresとDeepLM)を最大33倍、そして3.3倍の性能で上回ることができることが示された。 MegBAのコードは: \url{https://github.com/MegviiRobot/MegBA}.comで公開されている。

関連論文リスト

PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters [36.52497630960292]
primaは分散推論システムで、CPU/GPU、低RAM/VRAM、Wi-Fi、クロスプラットフォームのサポートを組み合わせて、毎日のホームデバイスで70Bスケールのモデルを実行する。プリマはラマ、エクソ、アンドラマを30B+モデルで上回り、メモリ圧力は6%以下である。これにより、Llama 3、DeepSeek R1、Qwen 2.5、QwQなどのフロンティア30B-70Bモデルがホームアシスタントに導入され、高度なAIが個人に対して真にアクセスできるようになる。
論文参考訳（メタデータ） (2025-04-07T13:46:21Z)
CAT: A GPU-Accelerated FHE Framework with Its Application to High-Precision Private Dataset Query [0.51795041186793]
本稿では,オープンソースGPUアクセラレーションによる完全同型暗号(FHE)フレームワークCATを紹介する。 emphCATは、コア数学の基礎、事前計算された要素と複合操作のブリッジ、FHE演算子のAPIアクセス可能なレイヤという3層アーキテクチャを備えている。本フレームワークでは,CKKS,BFV,BGVの3種類のFHEスキームを実装した。
論文参考訳（メタデータ） (2025-03-28T08:20:18Z)
BurTorch: Revisiting Training from First Principles by Coupling Autodiff, Math Optimization, and Systems [56.16884466478886]
BurTorchは、単一ノードワークステーション上でのディープラーニング(DL)トレーニングを最適化するために設計された、コンパクトな高性能フレームワークである。 BurTorchは最小限の設計を採用し、これらの状況下では、古典的なコンパイルされたプログラミング言語がDL研究において重要な役割を果たすことを証明している。
論文参考訳（メタデータ） (2025-03-18T00:52:12Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
Bundle Adjustment in the Eager Mode [14.13835018035969]
我々はPyPoseとシームレスに統合された、熱心に動く Bundle 調整フレームワークを提案する。提案手法は,2次最適化のために設計されたGPUアクセラレーション,微分可能,スパース演算,リー群およびリー代数演算,線形解法を含む。提案手法は, GTSAM, g$2$o, Ceresと比較して平均18.5$times$, 22$times$, 23$times$の平均速度アップを実現している。
論文参考訳（メタデータ） (2024-09-18T17:59:29Z)
XLB: A differentiable massively parallel lattice Boltzmann library in Python [0.0]
JAX プラットフォームをベースとした Python ベースの差別化可能な LBM ライブラリである XLB ライブラリを紹介する。 XLBの差別化性とデータ構造は、広範囲にわたるJAXベースの機械学習エコシステムと互換性がある。 XLBは数十億のセルでのシミュレーション処理に成功し、毎秒ギガスケールの格子更新を実現している。
論文参考訳（メタデータ） (2023-11-27T18:50:37Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
CPU- and GPU-based Distributed Sampling in Dirichlet Process Mixtures for Large-scale Analysis [11.071895608242675]
Dirichlet Process Mixture Model (DPMM) は、モデルの複雑さをデータに適用するための原則的なアプローチである。その可能性と数学的優雅さにもかかわらず、DPMMはまだ実践者が広く採用する主流のツールにはなっていない。そこで我々は,スケーラブルなDPMMM推論のための,新しい,使いやすい統計ソフトウェアパッケージを提案する。
論文参考訳（メタデータ） (2022-04-19T16:35:44Z)
ReservoirComputing.jl: An Efficient and Modular Library for Reservoir Computing Models [0.17499351967216337]
ReservoirComputing.jlは、貯水池コンピューティングモデルのためのオープンソースのJuliaライブラリである。コードとドキュメントは、MITライセンス下でGithubにホストされている。
論文参考訳（メタデータ） (2022-04-08T13:33:09Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data Analytics [0.0]
HeATは、大規模並列処理のための配列ベースの数値プログラミングフレームワークで、簡単に使えるNumPyライクなAPIがある。 HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。
論文参考訳（メタデータ） (2020-07-27T13:33:17Z)
Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文参考訳（メタデータ） (2020-06-26T21:03:45Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。