論文の概要: Speedy MASt3R
- arxiv url: http://arxiv.org/abs/2503.10017v1
- Date: Thu, 13 Mar 2025 03:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:09.057131
- Title: Speedy MASt3R
- Title(参考訳): 高速MASt3R
- Authors: Jingxing Li, Yongjae Lee, Abhay Kumar Yadav, Cheng Peng, Rama Chellappa, Deliang Fan,
- Abstract要約: MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
- 参考スコア(独自算出の注目度): 68.47052557089631
- License:
- Abstract: Image matching is a key component of modern 3D vision algorithms, essential for accurate scene reconstruction and localization. MASt3R redefines image matching as a 3D task by leveraging DUSt3R and introducing a fast reciprocal matching scheme that accelerates matching by orders of magnitude while preserving theoretical guarantees. This approach has gained strong traction, with DUSt3R and MASt3R collectively cited over 250 times in a short span, underscoring their impact. However, despite its accuracy, MASt3R's inference speed remains a bottleneck. On an A40 GPU, latency per image pair is 198.16 ms, mainly due to computational overhead from the ViT encoder-decoder and Fast Reciprocal Nearest Neighbor (FastNN) matching. To address this, we introduce Speedy MASt3R, a post-training optimization framework that enhances inference efficiency while maintaining accuracy. It integrates multiple optimization techniques, including FlashMatch-an approach leveraging FlashAttention v2 with tiling strategies for improved efficiency, computation graph optimization via layer and tensor fusion having kernel auto-tuning with TensorRT (GraphFusion), and a streamlined FastNN pipeline that reduces memory access time from quadratic to linear while accelerating block-wise correlation scoring through vectorized computation (FastNN-Lite). Additionally, it employs mixed-precision inference with FP16/FP32 hybrid computations (HybridCast), achieving speedup while preserving numerical precision. Evaluated on Aachen Day-Night, InLoc, 7-Scenes, ScanNet1500, and MegaDepth1500, Speedy MASt3R achieves a 54% reduction in inference time (198 ms to 91 ms per image pair) without sacrificing accuracy. This advancement enables real-time 3D understanding, benefiting applications like mixed reality navigation and large-scale 3D scene reconstruction.
- Abstract(参考訳): 画像マッチングは現代の3次元視覚アルゴリズムの重要な要素であり、正確なシーン再構成とローカライゼーションに不可欠である。
MASt3Rは、DUSt3Rを活用して画像マッチングを3Dタスクとして再定義し、理論的保証を維持しながら、桁違いのマッチングを高速化する高速な相互マッチング方式を導入する。
DUSt3RとMASt3Rは短距離で250回以上引用され、その影響を裏付けている。
しかし、その精度にもかかわらず、MASt3Rの推論速度はボトルネックのままである。
A40 GPUでは、画像ペアあたりのレイテンシは198.16msであり、主にViTエンコーダデコーダとFast Reciprocal Nearest Neighbor (FastNN)マッチングによる計算オーバーヘッドが原因である。
そこで本研究では,精度を保ちながら推論効率を向上する学習後最適化フレームワークであるSpeedy MASt3Rを紹介する。
FlashAttention v2を利用したFlashMatch-anアプローチと効率改善のためのタイリング戦略、TensorRT(GraphFusion)によるカーネル自動チューニングを備えたレイヤとテンソル融合による計算グラフ最適化、ベクトル化された計算(FastNN-Lite)によるブロックワイズ相関のスコアリングを加速しながら、メモリアクセス時間を2次から線形に短縮するFastNNパイプラインなど、複数の最適化手法を統合している。
さらに、FP16/FP32ハイブリッド計算(HybridCast)との混合精度推論を採用し、数値精度を維持しながら高速化を実現している。
Aachen Day-Night, InLoc, 7-Scenes, ScanNet1500, MegaDepth1500で評価されたSpeedy MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
関連論文リスト
- Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives [60.217580865237835]
3D Gaussian Splatting (3D-GS)は、3D Gaussian のパラメトリック点雲としてシーンをモデル化することで、新しいビューをリアルタイムにレンダリングすることのできる最近の3Dシーン再構築技術である。
3D-GSでは,レンダリング速度,モデルサイズ,トレーニング時間の大幅な改善を実現し,2つの重要な非効率性に対処する。
我々のSpeedy-Splatアプローチはこれらのテクニックを組み合わせることで、Mip-NeRF 360、Tamps & Temples、Deep Blendingのデータセットから、平均レンダリング速度を6.71ドル(約6万6000円)で加速します。
論文 参考訳(メタデータ) (2024-11-30T20:25:56Z) - 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt [65.25603275491544]
3DGS-LM, 3D Gaussian Splatting(3DGS)の再構築を高速化する新しい手法を提案する。
提案手法は元の3DGSよりも30%高速で, 再現品質の最適化が可能である。
論文 参考訳(メタデータ) (2024-09-19T16:31:44Z) - Grounding Image Matching in 3D with MASt3R [8.14650201701567]
本稿では,トランスフォーマーをベースとした強力な3次元再構成フレームワークであるDUSt3Rによる3Dタスクのキャストマッチングを提案する。
我々は,DUSt3Rネットワークを高密度な局所的特徴を出力する新しいヘッドで拡張することを提案する。
提案手法はMASt3Rとよばれる手法で,複数のマッチングタスクにおいて技量を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-14T06:46:30Z) - Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like
Speed [42.861344584752]
従来は検出不要であったLoFTRは、大きな視点の変化とテクスチャ・ポーアのシナリオを扱う際、顕著な整合性を示した。
設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。
提案手法は,競争力のあるセミセンス・マーカと比較して高い精度を実現することができる。
論文 参考訳(メタデータ) (2024-03-07T18:58:40Z) - GPU optimization of the 3D Scale-invariant Feature Transform Algorithm
and a Novel BRIEF-inspired 3D Fast Descriptor [5.1537294207900715]
本研究は,大規模な医用画像データからの機械学習を目的として,SIFTアルゴリズムの高効率実装について述べる。
3D SIFTコードの主要な操作は、畳み込み、サブサンプリング、スケールスペースピラミッドからの4Dピーク検出を含むグラフィックス処理ユニット(GPU)上に実装されている。
パフォーマンス改善は、異なる人の3D MRI人間の脳量を用いて、キーポイント検出と画像と画像のマッチング実験で定量化される。
論文 参考訳(メタデータ) (2021-12-19T20:56:40Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。