Fugu-MT 論文翻訳(概要): Design Space Exploration of Low-Bit Quantized Neural Networks for Visual Place Recognition

論文の概要: Design Space Exploration of Low-Bit Quantized Neural Networks for Visual Place Recognition

arxiv url: http://arxiv.org/abs/2312.09028v1
Date: Thu, 14 Dec 2023 15:24:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 21:25:42.823673
Title: Design Space Exploration of Low-Bit Quantized Neural Networks for Visual Place Recognition
Title（参考訳）: 視覚位置認識のための低ビット量子化ニューラルネットワークの設計空間探索
Authors: Oliver Grainge, Michael Milford, Indu Bodala, Sarvapali D. Ramchurn and Shoaib Ehsan
Abstract要約: 視覚的位置認識(VPR)は、視覚認識システムにおいて、グローバルな再局在を行うための重要なタスクである。最近、リソース利用に限定したパフォーマンス指標としてリコール@1メトリクスに焦点が当てられている。これにより、低出力エッジデバイスにデプロイするには、ディープラーニングモデルを使用する方法が大きすぎる。完全精度と混合精度のポストトレーニング量子化を併用したコンパクト畳み込みネットワーク設計がVPR性能に及ぼす影響について検討する。
参考スコア（独自算出の注目度）: 26.213493552442102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Place Recognition (VPR) is a critical task for performing global re-localization in visual perception systems. It requires the ability to accurately recognize a previously visited location under variations such as illumination, occlusion, appearance and viewpoint. In the case of robotic systems and augmented reality, the target devices for deployment are battery powered edge devices. Therefore whilst the accuracy of VPR methods is important so too is memory consumption and latency. Recently new works have focused on the recall@1 metric as a performance measure with limited focus on resource utilization. This has resulted in methods that use deep learning models too large to deploy on low powered edge devices. We hypothesize that these large models are highly over-parameterized and can be optimized to satisfy the constraints of a low powered embedded system whilst maintaining high recall performance. Our work studies the impact of compact convolutional network architecture design in combination with full-precision and mixed-precision post-training quantization on VPR performance. Importantly we not only measure performance via the recall@1 score but also measure memory consumption and latency. We characterize the design implications on memory, latency and recall scores and provide a number of design recommendations for VPR systems under these resource limitations.
Abstract（参考訳）: 視覚的位置認識(VPR)は、視覚認識システムにおいて、グローバルな再局在を行うための重要なタスクである。照明、咬合、外観、視点などのバリエーションによって、以前訪れた場所を正確に認識する能力が必要となる。ロボットシステムと拡張現実の場合、展開対象のデバイスはバッテリー駆動のエッジデバイスである。したがって、VPR法の精度は重要であり、メモリ消費と遅延も重要である。近年,リソース利用に限定したパフォーマンス指標としてrecall@1メトリックが注目されている。これにより、低出力エッジデバイスにデプロイするには、ディープラーニングモデルを使用する方法が大きすぎる。これらのモデルは非常に過パラメータ化されており、高いリコール性能を維持しながら低出力の組込みシステムの制約を満たすように最適化できると仮定する。本研究は,完全精度と混合精度のポストトレーニング量子化を併用したコンパクト畳み込みネットワーク設計がVPR性能に及ぼす影響を考察する。重要なのは、recall@1スコアによるパフォーマンス測定だけでなく、メモリ消費とレイテンシの測定も行います。本稿では、メモリ、レイテンシ、リコールスコアに関する設計上の意味を特徴付け、これらのリソース制限下でのVPRシステムの設計勧告を多数提供する。

関連論文リスト

EmbodiedPlace: Learning Mixture-of-Features with Embodied Constraints for Visual Place Recognition [9.75969669445091]
視覚的位置認識(VPR)は、コンピュータビジョンにおけるシーン指向の画像検索問題である。そこで本稿では,Mixture-of-Features (MoF) アプローチを具体的制約下で適用することにより,グローバルな特徴を洗練する,新しい簡易なリグレード手法を提案する。
論文参考訳（メタデータ） (2025-06-16T06:40:12Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
Memory Efficient Continual Learning for Edge-Based Visual Anomaly Detection [4.790817958353412]
本稿では,エッジデバイス上での視覚異常検出における連続学習の課題について,新たな考察を行う。エッジデバイス上でのメモリフットプリントが低いことを考慮し,STFPM手法の評価を行った。本研究は,資源制約エッジデバイス上でのCLADシナリオに適応し,漸進的に学習するVADモデルをデプロイ可能であることを示す。
論文参考訳（メタデータ） (2025-03-04T15:03:47Z)
SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文参考訳（メタデータ） (2025-02-23T15:01:09Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
PaSTe: Improving the Efficiency of Visual Anomaly Detection at the Edge [6.643376250301589]
視覚異常検出(VAD)は、異常画像を識別し、異常の原因となる特定の領域を特定できることから、重要な研究の注目を集めている。現実世界のアプリケーションの可能性にもかかわらず、文献はリソース効率の高いVAD、特にエッジデバイスへのデプロイに限定して焦点を当てている。この作業は、軽量ニューラルネットワークを活用してメモリと要求を削減し、リソース制約のあるエッジデバイスへのVADデプロイメントを可能にすることで、このギャップに対処する。
論文参考訳（メタデータ） (2024-10-15T13:25:43Z)
Structured Pruning for Efficient Visual Place Recognition [24.433604332415204]
視覚的位置認識(VPR)は、ロボットや機器のグローバルな再ローカライズに欠かせない。本稿では,共通VPRアーキテクチャを合理化するための新しい構造化プルーニング手法を提案する。この二重焦点はシステムの効率を大幅に向上させ、マップとモデルメモリの要求を減らし、特徴抽出と検索待ち時間を短縮する。
論文参考訳（メタデータ） (2024-09-12T08:32:25Z)
HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。 HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文参考訳（メタデータ） (2024-07-11T17:42:17Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Compressing the Backward Pass of Large-Scale Neural Architectures by Structured Activation Pruning [0.0]
ディープニューラルネットワーク(DNN)におけるスパシティはソリューションとして注目されている。この研究は、訓練中のメモリ消費を減らすことを目的として、短命の空間性に焦点を当てている。大規模ニューラルアーキテクチャのトレーニング速度,精度,メモリ使用量を評価することにより,アクティベーションプルーニングの有効性を報告する。
論文参考訳（メタデータ） (2023-11-28T15:31:31Z)
LGC-Net: A Lightweight Gyroscope Calibration Network for Efficient Attitude Estimation [10.468378902106613]
本稿では,低コストマイクロエレクトロメカニカル・システム(MEMS)ジャイロスコープを分解し,ロボットの姿勢をリアルタイムで推定するキャリブレーションニューラルネットワークモデルを提案する。鍵となるアイデアは、慣性測定ユニット(IMU)測定の時間窓から局所的および大域的特徴を抽出し、ジャイロスコープの出力補償成分を動的に回帰させることである。提案アルゴリズムはEuRoCおよびTUM-VIデータセットで評価され、より軽量なモデル構造で(目に見えない)テストシーケンスの最先端化を実現する。
論文参考訳（メタデータ） (2022-09-19T08:03:03Z)
Incremental Online Learning Algorithms Comparison for Gesture and Visual Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文参考訳（メタデータ） (2022-09-01T17:05:20Z)
Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。 LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文参考訳（メタデータ） (2022-05-30T14:30:45Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)
Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。 BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文参考訳（メタデータ） (2021-02-11T12:00:24Z)
Binary Neural Networks for Memory-Efficient and Effective Visual Place Recognition in Changing Environments [24.674034243725455]
視覚的場所認識(VPR)は、視覚データを用いて、ある場所が訪れたかどうかを判断するロボットの能力である。 CNNベースのアプローチは、小さなロボットやドローンのようなリソース制約のあるプラットフォームには適さない。本稿では,メモリ要求と計算労力を大幅に削減する,超コンパクトモデルの新たなクラスを提案する。
論文参考訳（メタデータ） (2020-10-01T22:59:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。