論文の概要: Differentiable Product Quantization for Memory Efficient Camera Relocalization
- arxiv url: http://arxiv.org/abs/2407.15540v1
- Date: Mon, 22 Jul 2024 11:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:21:11.519284
- Title: Differentiable Product Quantization for Memory Efficient Camera Relocalization
- Title(参考訳): メモリ効率の良いカメラ再ローカライズのための微分可能な製品量子化
- Authors: Zakaria Laskar, Iaroslav Melekhov, Assia Benbihi, Shuzhe Wang, Juho Kannala,
- Abstract要約: 我々は,記述子量子化-復号化を行う軽量シーン固有オートエンコーダネットワークをエンドツーエンドの微分可能な方法で訓練する。
その結果,1MBのローカルディスクリプタメモリでは,提案したネットワークとマップ圧縮の相乗的組み合わせが最高の性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 9.9838111920925
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Camera relocalization relies on 3D models of the scene with a large memory footprint that is incompatible with the memory budget of several applications. One solution to reduce the scene memory size is map compression by removing certain 3D points and descriptor quantization. This achieves high compression but leads to performance drop due to information loss. To address the memory performance trade-off, we train a light-weight scene-specific auto-encoder network that performs descriptor quantization-dequantization in an end-to-end differentiable manner updating both product quantization centroids and network parameters through back-propagation. In addition to optimizing the network for descriptor reconstruction, we encourage it to preserve the descriptor-matching performance with margin-based metric loss functions. Results show that for a local descriptor memory of only 1MB, the synergistic combination of the proposed network and map compression achieves the best performance on the Aachen Day-Night compared to existing compression methods.
- Abstract(参考訳): カメラの再ローカライゼーションはシーンの3Dモデルに依存しており、メモリフットプリントが大きく、複数のアプリケーションのメモリ予算と互換性がない。
シーンメモリサイズを減らす解決策の1つは、特定の3Dポイントとディスクリプタ量子化を取り除くことで、マップ圧縮である。
これは高い圧縮を実現するが、情報損失による性能低下につながる。
メモリ性能のトレードオフに対処するため、バックプロパゲーションにより製品量子化セントロイドとネットワークパラメータの両方を更新するエンド・ツー・エンドの微分可能な方法でディスクリプタ量子化復号を行う軽量シーン固有オートエンコーダネットワークを訓練する。
ディスクリプタ再構築のためのネットワークの最適化に加えて,マージンに基づく距離損失関数を用いた記述子マッチング性能の維持を推奨する。
その結果,1MBのローカルディスクリプタメモリの場合,提案するネットワークとマップ圧縮の相乗的組み合わせは,既存の圧縮方式と比較して,Aachen Day-Night上で最高の性能が得られることがわかった。
関連論文リスト
- Are Visual Recognition Models Robust to Image Compression? [23.280147529096908]
画像圧縮が視覚認知タスクに与える影響を解析する。
我々は、0.1ビットから2ビット/ピクセル(bpp)までの幅広い圧縮レベルについて検討する。
これら3つのタスクすべてにおいて,強い圧縮を使用する場合,認識能力に大きな影響があることが判明した。
論文 参考訳(メタデータ) (2023-04-10T11:30:11Z) - Device Interoperability for Learned Image Compression with Weights and
Activations Quantization [1.373801677008598]
本稿では,最先端の画像圧縮ネットワークのデバイス相互運用性問題を解決する手法を提案する。
本稿では,クロスプラットフォームの符号化と復号化を保証し,高速に実装できる簡易な手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T17:45:29Z) - Efficient Feature Extraction for High-resolution Video Frame
Interpolation [15.073405675079558]
フレームに適した抽出情報を保持しつつ, 入力表現を圧縮するために, 軽量な計算がいかに使用できるかを示す。
我々は,ネットワークの複雑さとメモリ要件を全体として低く抑えながら,事前学習を行なわない手法において,最先端の画像品質を実現する。
論文 参考訳(メタデータ) (2022-11-25T10:21:56Z) - NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization [60.73541222862195]
NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。
シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
論文 参考訳(メタデータ) (2022-11-21T04:46:22Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - 3D Scene Compression through Entropy Penalized Neural Representation
Functions [19.277502420759653]
新しいビジュアルメディアは、元のビューの離散セットを補間することにより、視聴者が任意の視点から3dシーンを探索できるようにする。
これらのタイプのアプリケーションには、はるかに大量のストレージスペースが必要です。
3Dシーンを圧縮するための既存のアプローチは、圧縮とレンダリングの分離に基づいている。
我々は、空間座標を放射ベクトル場にマッピングする関数であるシーンの暗黙の表現を直接圧縮することでこれらのステップを統一し、任意の視点を描画するためにクエリすることができる。
本手法はシーン圧縮の最先端手法を著しく上回り,同時に高品質な再構成を実現する。
論文 参考訳(メタデータ) (2021-04-26T10:36:47Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。