Fugu-MT 論文翻訳(概要): Structured Pruning for Efficient Visual Place Recognition

論文の概要: Structured Pruning for Efficient Visual Place Recognition

arxiv url: http://arxiv.org/abs/2409.07834v1
Date: Thu, 12 Sep 2024 08:32:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 17:18:01.280861
Title: Structured Pruning for Efficient Visual Place Recognition
Title（参考訳）: 効率的な視覚的位置認識のための構造化プルーニング
Authors: Oliver Grainge, Michael Milford, Indu Bodala, Sarvapali D. Ramchurn, Shoaib Ehsan,
Abstract要約: 視覚的位置認識(VPR)は、ロボットや機器のグローバルな再ローカライズに欠かせない。本稿では,共通VPRアーキテクチャを合理化するための新しい構造化プルーニング手法を提案する。この二重焦点はシステムの効率を大幅に向上させ、マップとモデルメモリの要求を減らし、特徴抽出と検索待ち時間を短縮する。
参考スコア（独自算出の注目度）: 24.433604332415204
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Place Recognition (VPR) is fundamental for the global re-localization of robots and devices, enabling them to recognize previously visited locations based on visual inputs. This capability is crucial for maintaining accurate mapping and localization over large areas. Given that VPR methods need to operate in real-time on embedded systems, it is critical to optimize these systems for minimal resource consumption. While the most efficient VPR approaches employ standard convolutional backbones with fixed descriptor dimensions, these often lead to redundancy in the embedding space as well as in the network architecture. Our work introduces a novel structured pruning method, to not only streamline common VPR architectures but also to strategically remove redundancies within the feature embedding space. This dual focus significantly enhances the efficiency of the system, reducing both map and model memory requirements and decreasing feature extraction and retrieval latencies. Our approach has reduced memory usage and latency by 21% and 16%, respectively, across models, while minimally impacting recall@1 accuracy by less than 1%. This significant improvement enhances real-time applications on edge devices with negligible accuracy loss.
Abstract（参考訳）: 視覚的位置認識(VPR)は、ロボットや機器のグローバルな再ローカライズに欠かせないものであり、視覚的な入力に基づいて以前に訪れた場所を認識できる。この能力は、広範囲にわたる正確なマッピングとローカライゼーションを維持するために不可欠である。 VPR手法は組込みシステム上でリアルタイムに動作する必要があるため、これらのシステムを最小限のリソース消費のために最適化することが重要である。最も効率的なVPRアプローチでは、固定ディスクリプタ次元の標準的な畳み込みバックボーンが使用されるが、これはしばしば埋め込み空間とネットワークアーキテクチャの冗長性をもたらす。本研究は,共通VPRアーキテクチャの合理化だけでなく,特徴埋め込み空間内での冗長性を戦略的に除去する,新しい構造化プルーニング手法を提案する。この二重焦点はシステムの効率を大幅に向上させ、マップとモデルメモリの要求を減らし、特徴抽出と検索待ち時間を短縮する。当社のアプローチでは,モデル間でのメモリ使用量とレイテンシをそれぞれ21%,レイテンシを16%削減しています。この大幅な改善は、無視できる精度の損失のあるエッジデバイスにおけるリアルタイムなアプリケーションを強化する。

関連論文リスト

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-19T09:54:46Z)
SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文参考訳（メタデータ） (2025-02-23T15:01:09Z)
Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文参考訳（メタデータ） (2024-07-18T10:26:53Z)
HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。 HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文参考訳（メタデータ） (2024-07-11T17:42:17Z)
EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration [1.741980945827445]
教師なし3次元画像登録のためのトランスフォーマーベースアーキテクチャであるEfficientMorphを提案する。航空機をベースとしたアテンション機構を通じて、地域と世界的なアテンションのバランスを最適化する。カスケードされたグループアテンションによって計算の冗長性を低減し、計算効率を損なうことなく細部をキャプチャする。
論文参考訳（メタデータ） (2024-03-16T22:01:55Z)
Local positional graphs and attentive local features for a data and runtime-efficient hierarchical place recognition pipeline [11.099588962062937]
本稿では,既存のアプローチを拡張し,新しいアイデアを提示する,ランタイムとデータ効率のよい階層型VPRパイプラインを提案する。まず,ローカル画像の特徴の空間的コンテキスト情報を符号化する学習不要かつ実行効率のよいアプローチであるローカル位置グラフ(LPG)を提案する。第2に,アテンタティブ・ローカルSPED(Attentive Local SPED)について述べる。第3に,超次元計算を利用した階層型パイプラインを提案し,高速な候補選択と候補再評価のために,全体的HDC記述子と同じ局所的特徴を利用する。
論文参考訳（メタデータ） (2024-03-15T13:26:39Z)
Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文参考訳（メタデータ） (2024-02-25T13:22:17Z)
Design Space Exploration of Low-Bit Quantized Neural Networks for Visual Place Recognition [26.213493552442102]
視覚的位置認識(VPR)は、視覚認識システムにおいて、グローバルな再局在を行うための重要なタスクである。最近、リソース利用に限定したパフォーマンス指標としてリコール@1メトリクスに焦点が当てられている。これにより、低出力エッジデバイスにデプロイするには、ディープラーニングモデルを使用する方法が大きすぎる。完全精度と混合精度のポストトレーニング量子化を併用したコンパクト畳み込みネットワーク設計がVPR性能に及ぼす影響について検討する。
論文参考訳（メタデータ） (2023-12-14T15:24:42Z)
DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文参考訳（メタデータ） (2023-08-03T17:59:04Z)
Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文参考訳（メタデータ） (2023-03-16T21:06:13Z)
Improving Worst Case Visual Localization Coverage via Place-specific Sub-selection in Multi-camera Systems [29.519262914510396]
6-DoFビジュアルローカライゼーションシステムは,3次元形状に根ざした原理的アプローチを用いて,地図上の画像の正確なカメラポーズ推定を行う。オフザシェルフパイプラインに比べて,最悪のローカライゼーション性能が大幅に向上した。提案手法は,特に自動運転車のクラウドシェアリングモデルに適用可能である。
論文参考訳（メタデータ） (2022-06-28T10:59:39Z)
FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文参考訳（メタデータ） (2021-07-07T13:39:08Z)
Binary Neural Networks for Memory-Efficient and Effective Visual Place Recognition in Changing Environments [24.674034243725455]
視覚的場所認識(VPR)は、視覚データを用いて、ある場所が訪れたかどうかを判断するロボットの能力である。 CNNベースのアプローチは、小さなロボットやドローンのようなリソース制約のあるプラットフォームには適さない。本稿では,メモリ要求と計算労力を大幅に削減する,超コンパクトモデルの新たなクラスを提案する。
論文参考訳（メタデータ） (2020-10-01T22:59:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。