論文の概要: A dynamic memory assignment strategy for dilation-based ICP algorithm on embedded GPUs
- arxiv url: http://arxiv.org/abs/2512.04996v1
- Date: Thu, 04 Dec 2025 17:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.288238
- Title: A dynamic memory assignment strategy for dilation-based ICP algorithm on embedded GPUs
- Title(参考訳): 組み込みGPUを用いた拡張型ICPアルゴリズムの動的メモリ割り当て戦略
- Authors: Qiong Chang, Weimin Wang, Junpei Zhong, Jun Miyazaki,
- Abstract要約: 本稿では,高性能ポイントクラウド登録アルゴリズムVANICPのメモリ効率の最適化手法を提案する。
VANICPフレームワークの拡張版を構築し,97%以上のメモリ消費削減を実現した。
- 参考スコア(独自算出の注目度): 7.447980598008699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a memory-efficient optimization strategy for the high-performance point cloud registration algorithm VANICP, enabling lightweight execution on embedded GPUs with constrained hardware resources. VANICP is a recently published acceleration framework that significantly improves the computational efficiency of point-cloud-based applications. By transforming the global nearest neighbor search into a localized process through a dilation-based information propagation mechanism, VANICP greatly reduces the computational complexity of the NNS. However, its original implementation demands a considerable amount of memory, which restricts its deployment in resource-constrained environments such as embedded systems. To address this issue, we propose a GPU-oriented dynamic memory assignment strategy that optimizes the memory usage of the dilation operation. Furthermore, based on this strategy, we construct an enhanced version of the VANICP framework that achieves over 97% reduction in memory consumption while preserving the original performance. Source code is published on: https://github.com/changqiong/VANICP4Em.git.
- Abstract(参考訳): 本稿では,ハードウェアリソースが制約された組み込みGPU上での軽量な実行を可能にする,高性能ポイントクラウド登録アルゴリズムVANICPのメモリ効率の最適化手法を提案する。
VANICPは、ポイントクラウドベースのアプリケーションの計算効率を大幅に改善する、最近公開されたアクセラレーションフレームワークである。
グローバルな近接探索を拡張ベースの情報伝達機構を通じて局所化プロセスに変換することにより、VANICPはNSの計算複雑性を大幅に低減する。
しかし、元の実装ではかなりの量のメモリを必要とするため、組み込みシステムのようなリソース制約のある環境への展開が制限される。
この問題に対処するために,拡張操作のメモリ使用率を最適化するGPU指向動的メモリ割り当て戦略を提案する。
さらに,この戦略に基づいてVANICPフレームワークの強化版を構築し,元の性能を維持しつつ,97%以上のメモリ消費削減を実現している。
ソースコードはhttps://github.com/changqiong/VANICP4Em.git.comで公開されている。
関連論文リスト
- Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Reducing GPU Memory Fragmentation via Spatio-Temporal Planning for Efficient Large-Scale Model Training [9.775731832789116]
本稿では,ディープラーニングフレームワークのためのGPUメモリアレータSTWeaverを紹介し,メモリ割り当て動作の時間的規則性を利用してフラグメンテーションを低減する。
プラグPyTorchとして開発されたSTWeaverは、密度とスパースモデルの両方で平均79.2%(最大100%)のフラグメンテーション比を、無視できるオーバーヘッドで減少させる。
論文 参考訳(メタデータ) (2025-07-22T06:39:07Z) - AIRES: Accelerating Out-of-Core GCNs via Algorithm-System Co-Design [6.554916179445241]
グラフ畳み込みネットワーク(GCN)は、バイオメディカルタンパク質とタンパク質の相互作用(PPI)から大規模レコメンデーションシステムまで、様々な科学的応用において基本的なものである。
GCNのグラフ構造をモデル化するための重要な要素はスパース一般行列行列乗法(SpGEMM)である。
SpGEMMは、リソースに制約のあるシステムにおいて、限られたGPUメモリスペースのために、アウトオブコアで実行されることが多い。
本稿では,GCNのアウトオブコア SpGEMM 計算を高速化するアルゴリズム-システム共設計ソリューション AIRES を提案する。
論文 参考訳(メタデータ) (2025-07-02T00:35:43Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - CHIME: Energy-Efficient STT-RAM-based Concurrent Hierarchical In-Memory Processing [1.5566524830295307]
本稿では、新しいPiC/PiMアーキテクチャ、Concurrent Hierarchical In-Memory Processing(CHIME)を紹介する。
CHIMEは、メモリ階層の複数のレベルにわたる不均一な計算ユニットを戦略的に組み込む。
実験の結果、最先端のビット線コンピューティングアプローチと比較して、CHIMEは57.95%と78.23%の大幅なスピードアップと省エネを実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-29T01:17:54Z) - Integrated Hardware Architecture and Device Placement Search [7.620610652090732]
ディープラーニングトレーニングの分散実行には、ハードウェアアクセラレータアーキテクチャとデバイス配置戦略との動的相互作用が含まれる。
これは、最適なアーキテクチャとデバイス配置戦略を決定するための協調最適化を探求する最初の試みである。
提案手法は,最先端のTPUv4とSpotlightアクセラレーター検索フレームワークと比較して,大規模言語モデルにおいて高いスループットを実現する。
論文 参考訳(メタデータ) (2024-07-18T04:02:35Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。