論文の概要: PySIFT: GPU-Resident Deterministic SIFT for Deep Learning Vision Pipelines
- arxiv url: http://arxiv.org/abs/2605.17869v1
- Date: Mon, 18 May 2026 05:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.890484
- Title: PySIFT: GPU-Resident Deterministic SIFT for Deep Learning Vision Pipelines
- Title(参考訳): PySIFT:ディープラーニングビジョンパイプラインのためのGPU常駐決定型SIFT
- Authors: Sivakumar K. S., Mohammad Daniyalur Rahman, Gopi Raju Matta,
- Abstract要約: DSPマルチスケールプールを用いた古典SIFTは,神経記述子や配向置換よりも優れていた。
In this present PySIFT, a first fully GPU-resident SIFT, implemented in CuPy/Numba kernels with DLPack zero-copy handoff to downstream DL framework。
- 参考スコア(独自算出の注目度): 0.22940141855172033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A widespread assumption in local feature research holds that classical handcrafted descriptors are accuracy-limited relics best replaced by learned alternatives. We show this is wrong. Through an 8-configuration ablation spanning four benchmarks (HPatches, ROxford5K, IMC Phototourism, MegaDepth), we demonstrate that classical SIFT with DSP multi-scale pooling outperforms neural descriptor and orientation replacements (HardNet, OriNet) on every accuracy metric--while running 2--18$\times$ faster--and that learned matchers (LightGlue) complement rather than supersede classical features. The conclusion reframes a decade of work: not "replace SIFT" but "compose with SIFT," classical extraction paired with learned matching only where geometric context demands it. This finding was invisible because no prior GPU SIFT kept the complete pipeline in VRAM or offered modularity for controlled classical-vs-learned ablations. We present PySIFT, the first fully GPU-resident SIFT, implemented in CuPy/Numba CUDA kernels with DLPack zero-copy handoff to downstream DL frameworks--submillisecond O(1) metadata swap regardless of keypoint count. On a laptop-grade NVIDIA RTX 3050 (4 GB VRAM), PySIFT achieves: (i) higher Mean Matching Accuracy (MMA) than OpenCV SIFT on HPatches, (ii) 383 ms faster per pair on high-resolution MegaDepth, (iii) higher geometric accuracy on cross-dataset benchmarks (+5.6 pp AUC@10${}^\circ$ on MegaDepth, more inliers on IMC Phototourism), and (iv) bitwise deterministic output--identical keypoints and descriptors across runs, with detection reproducing identically even across GPU architectures: a guarantee that learned extractors cannot match without significant performance sacrifice, and cannot achieve at all across GPU architectures due to cuDNN's architecture-dependent algorithm selection. PySIFT is open-source, requiring no C++ compilation.
- Abstract(参考訳): 局所的特徴研究において広く仮定されているのは、古典的な手書き記述子は精度に制限された遺物であり、学習された代替物に置き換えられるというものである。
これは間違っている。
4つのベンチマーク(HPatches, ROxford5K, IMC Phototourism, MegaDepth)にまたがる8-configuration ablationを通じて、古典的SIFTとDSPによるマルチスケールプーリングは、全ての精度で神経記述子と配向置換子(HardNet, OriNet)より優れていることを示した。
SIFTを置き換えるのではなく、「SIFTで構成する」という古典的な抽出は、幾何学的文脈がそれを要求する場合にのみ、学習されたマッチングと組み合わせて行われる。
この発見は、それまでのGPU SIFTが完全なパイプラインをVRAMに保持していなかったことや、制御された古典的なvs学習アブリゲーションにモジュール性を提供したことによる。
In this present PySIFT, a first fully GPU-resident SIFT, implemented in CuPy/Numba CUDA kernels with DLPack zero-copy handoff to downstream DL framework--submillisecond O(1) metadata swap any keypoint count。
ラップトップグレードのNVIDIA RTX 3050(4GB VRAM)では、PySIFTは次のように達成しています。
(i)HPatches上のOpenCV SIFTよりも平均整合精度(MMA)が高い。
(ii)高分解能メガデプスではペアあたり383ms高速である。
3) クロスデータセットベンチマーク(+5.6 pp AUC@10${}^\circ$ on MegaDepth, more inliers on IMC Phototourism)における高い幾何精度
キューDNNのアーキテクチャ依存アルゴリズムの選択により、学習された抽出器が大きなパフォーマンス犠牲なしには一致せず、GPUアーキテクチャ全体では達成できないという保証だ。
PySIFTはオープンソースで、C++コンパイルを必要としない。
関連論文リスト
- GPU-Accelerated Quantum Simulation: Empirical Backend Selection, Gate Fusion, and Adaptive Precision [0.0]
本稿では,GPU加速量子回路シミュレーションフレームワークを提案する。
実証的なバックエンド選択アルゴリズムは、実行時にCuPy、PyTorchCUDA、NumPyのCPUバックエンドをベンチマークする。
ゲート融合エンジンはゲートシーケンスの自動識別により回路深さを低減する。
フォールバック機構はGPUメモリの消費を監視し、リソースの枯渇時にメモリ実行を優雅に低下させる。
論文 参考訳(メタデータ) (2026-04-04T17:46:37Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - Scalable GPU-Accelerated Euler Characteristic Curves: Optimization and Differentiable Learning for PyTorch [0.0]
我々は,Euler Characteristics Curve(ECC)向けに最適化されたGPUカーネルを提案し,合成グリッド上でのGPU実装よりも16-2000"Oの高速化を実現した。
エンドツーエンドの学習を可能にする差別化可能なPyTorch層を導入する。
論文 参考訳(メタデータ) (2025-10-23T06:59:07Z) - A Parallel CPU-GPU Framework for Cost-Bounded DFS with Applications to IDA* and BTS [13.186524200050957]
本稿では,深度第一探索におけるGPU計算手法を提案する。
これは、Iterative Deepening A* (IDA*)アルゴリズムの拡張であるemphsynchronous IDA*のようなアルゴリズムを作成するために使用される。
本研究では, 3x3 の Rubik Cube と 4x4 のスライディングタイルパズル (STP) に対するアプローチを評価し,GPU 操作を DFS で効率的にバッチ化可能であることを示す。
論文 参考訳(メタデータ) (2025-07-16T05:07:33Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - GPU optimization of the 3D Scale-invariant Feature Transform Algorithm
and a Novel BRIEF-inspired 3D Fast Descriptor [5.1537294207900715]
本研究は,大規模な医用画像データからの機械学習を目的として,SIFTアルゴリズムの高効率実装について述べる。
3D SIFTコードの主要な操作は、畳み込み、サブサンプリング、スケールスペースピラミッドからの4Dピーク検出を含むグラフィックス処理ユニット(GPU)上に実装されている。
パフォーマンス改善は、異なる人の3D MRI人間の脳量を用いて、キーポイント検出と画像と画像のマッチング実験で定量化される。
論文 参考訳(メタデータ) (2021-12-19T20:56:40Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - DFTpy: An efficient and object-oriented platform for orbital-free DFT
simulations [55.41644538483948]
本稿では、Python 3で完全に書かれたOFDFTを実装したオープンソースソフトウェアであるDFTpyを紹介する。
本稿では,1CPUで計算したアルミニウムの100万原子系の電子構造について紹介する。
DFTpyはMITライセンスでリリースされている。
論文 参考訳(メタデータ) (2020-02-07T19:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。