論文の概要: Bundle Adjustment on a Graph Processor
- arxiv url: http://arxiv.org/abs/2003.03134v2
- Date: Mon, 30 Mar 2020 16:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:48:37.265387
- Title: Bundle Adjustment on a Graph Processor
- Title(参考訳): グラフプロセッサ上のバンドル調整
- Authors: Joseph Ortiz, Mark Pupilli, Stefan Leutenegger, Andrew J. Davison
- Abstract要約: Graphcoreのインテリジェンス処理ユニット(IPU)のようなグラフプロセッサは、AIのための新しいコンピュータアーキテクチャの大きな波の一部である。
グラフプロセッサにおいて,古典的コンピュータビジョン問題であるバンドル調整(BA)を極端に高速に解けることを示す。
- 参考スコア(独自算出の注目度): 28.915688817040778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph processors such as Graphcore's Intelligence Processing Unit (IPU) are
part of the major new wave of novel computer architecture for AI, and have a
general design with massively parallel computation, distributed on-chip memory
and very high inter-core communication bandwidth which allows breakthrough
performance for message passing algorithms on arbitrary graphs. We show for the
first time that the classical computer vision problem of bundle adjustment (BA)
can be solved extremely fast on a graph processor using Gaussian Belief
Propagation. Our simple but fully parallel implementation uses the 1216 cores
on a single IPU chip to, for instance, solve a real BA problem with 125
keyframes and 1919 points in under 40ms, compared to 1450ms for the Ceres CPU
library. Further code optimisation will surely increase this difference on
static problems, but we argue that the real promise of graph processing is for
flexible in-place optimisation of general, dynamically changing factor graphs
representing Spatial AI problems. We give indications of this with experiments
showing the ability of GBP to efficiently solve incremental SLAM problems, and
deal with robust cost functions and different types of factors.
- Abstract(参考訳): グラフコアのインテリジェンス処理ユニット(IPU)のようなグラフプロセッサは、AIの新しいコンピュータアーキテクチャの波の1つであり、大規模並列計算、分散オンチップメモリ、非常に高いコア間通信帯域を持つ一般的な設計であり、任意のグラフ上のメッセージパッシングアルゴリズムのブレークスルー性能を実現する。
ガウスの信念伝播を用いたグラフプロセッサ上で,バンドル調整(ba)の古典的コンピュータビジョン問題を極端に高速に解くことができることを示す。
私たちの単純な実装では、単一のIPUチップ上の1216コアを使用して、例えば、Ceres CPUライブラリの1450msに比べて、125キーフレームと1919ポイントの実際のBA問題を40ms以下で解決しています。
さらなるコードの最適化は静的問題に対するこの差を増大させるだろうが、グラフ処理の真の期待は、空間ai問題を表す一般的な動的変化因子グラフの柔軟なインプレース最適化である。
本稿では, GBP が増分SLAM 問題を効率的に解けることを示す実験を行い, コスト関数の堅牢性や要因の多様さを考察する。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - Fast, Scalable, Warm-Start Semidefinite Programming with Spectral
Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。
USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2023-12-19T02:27:22Z) - All-to-all reconfigurability with sparse and higher-order Ising machines [0.0]
オール・ツー・オールのネットワーク機能をエミュレートする多重アーキテクチャを導入する。
適応並列テンパリングアルゴリズムの実行は、競合するアルゴリズムと事前ファクターの利点を示す。
pビットIMのスケールされた磁気バージョンは、汎用最適化のための最先端技術よりも桁違いに改善される可能性がある。
論文 参考訳(メタデータ) (2023-11-21T20:27:02Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Scalable Graph Convolutional Network Training on Distributed-Memory
Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-09T17:51:13Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Learning to Solve Combinatorial Graph Partitioning Problems via
Efficient Exploration [72.15369769265398]
実験により、ECORDは最大カット問題に対するRLアルゴリズムのための新しいSOTAを実現する。
最も近い競合と比較して、ECORDは最適性ギャップを最大73%削減する。
論文 参考訳(メタデータ) (2022-05-27T17:13:10Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Quantum Approximate Optimization of Non-Planar Graph Problems on a
Planar Superconducting Processor [29.928684308464796]
量子近似最適化アルゴリズム(QAOA)による最適化問題へのGoogle Sycamore超伝導量子ビットプロセッサの適用を実証する。
初めて回路深度で性能が向上するのを観察した。
この挙動は、ハードウェア接続とは異なるグラフ上の問題を最適化するために、短期量子コンピュータを使用するという課題を強調している。
論文 参考訳(メタデータ) (2020-04-08T18:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。