論文の概要: TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2404.01587v1
- Date: Tue, 2 Apr 2024 02:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 18:08:16.227587
- Title: TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation
- Title(参考訳): TSCM:クロスメトリック知識蒸留を用いた教師学習型視覚位置認識モデル
- Authors: Yehui Shen, Mingmin Liu, Huimin Lu, Xieyuanli Chen,
- Abstract要約: 視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.856317526681759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual place recognition (VPR) plays a pivotal role in autonomous exploration and navigation of mobile robots within complex outdoor environments. While cost-effective and easily deployed, camera sensors are sensitive to lighting and weather changes, and even slight image alterations can greatly affect VPR efficiency and precision. Existing methods overcome this by exploiting powerful yet large networks, leading to significant consumption of computational resources. In this paper, we propose a high-performance teacher and lightweight student distillation framework called TSCM. It exploits our devised cross-metric knowledge distillation to narrow the performance gap between the teacher and student models, maintaining superior performance while enabling minimal computational load during deployment. We conduct comprehensive evaluations on large-scale datasets, namely Pittsburgh30k and Pittsburgh250k. Experimental results demonstrate the superiority of our method over baseline models in terms of recognition accuracy and model parameter efficiency. Moreover, our ablation studies show that the proposed knowledge distillation technique surpasses other counterparts. The code of our method has been released at https://github.com/nubot-nudt/TSCM.
- Abstract(参考訳): 視覚的位置認識(VPR)は、複雑な屋外環境における移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たしている。
コスト効率は高く、簡単に展開できるが、カメラセンサーは照明や天候の変化に敏感であり、わずかな画像の変更でさえVPRの効率と精度に大きな影響を及ぼす可能性がある。
既存の手法は、強力だが大規模なネットワークを利用することでこれを克服し、計算資源を著しく消費する。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
設計したクロスメトリックな知識蒸留を利用して、教師と学生のモデルのパフォーマンスギャップを狭め、優れた性能を維持しつつ、デプロイ中に最小限の計算負荷を許容する。
大規模データセット、すなわち、ピッツバーグ30kとピッツバーグ250kについて包括的な評価を行う。
評価精度とモデルパラメータ効率の観点から,本手法がベースラインモデルよりも優れていることを示す実験結果を得た。
さらに,本研究は,提案した知識蒸留技術が他の技術より優れていることを示唆している。
我々のメソッドのコードはhttps://github.com/nubot-nudt/TSCMでリリースされた。
関連論文リスト
- MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation [17.27883003990266]
VLN(Vision-and-Language Navigation)は、Embodied AIのコアタスクである。
本稿では,2段階の知識蒸留フレームワークを導入し,学生モデルMiniVLNについて述べる。
その結果,2段階蒸留法は,教師モデルと学生モデルのパフォーマンスギャップを狭めるのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:54:54Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - Distilling Knowledge from CNN-Transformer Models for Enhanced Human
Action Recognition [1.8722948221596285]
本研究の目的は、より大規模な教師モデルから知識を伝達することで、より小さな学生モデルの性能と効率を向上させることである。
提案手法では,生徒モデルとしてトランスフォーマー・ビジョン・ネットワークを使用し,教師モデルとして畳み込みネットワークが機能する。
Vision Transformer (ViT) アーキテクチャは、画像のグローバルな依存関係をキャプチャするための堅牢なフレームワークとして導入された。
論文 参考訳(メタデータ) (2023-11-02T14:57:58Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Circumventing Outliers of AutoAugment with Knowledge Distillation [102.25991455094832]
AutoAugmentは多くの視覚タスクの精度を向上させる強力なアルゴリズムである。
本論文は作業機構を深く掘り下げ,AutoAugmentがトレーニング画像から識別情報の一部を除去できることを明らかにする。
教師モデルの出力に言及した知識蒸留を用いて,ネットワークトレーニングの指導を行う。
論文 参考訳(メタデータ) (2020-03-25T11:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。