論文の概要: Local Feature Matching with Transformers for low-end devices
- arxiv url: http://arxiv.org/abs/2202.00770v1
- Date: Tue, 1 Feb 2022 21:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 01:32:02.244484
- Title: Local Feature Matching with Transformers for low-end devices
- Title(参考訳): ローエンドデバイス用変圧器との局所的特徴マッチング
- Authors: Kyrylo Kolodiazhnyi
- Abstract要約: LoFTR arXiv:2104.00680は、画像対上の適切な局所特徴マッチングを見つけるための効率的なディープラーニング手法である。
本稿では,計算性能が低く,メモリが制限されたデバイスで動作するための最適化について報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LoFTR arXiv:2104.00680 is an efficient deep learning method for finding
appropriate local feature matches on image pairs. This paper reports on the
optimization of this method to work on devices with low computational
performance and limited memory. The original LoFTR approach is based on a
ResNet arXiv:1512.03385 head and two modules based on Linear Transformer
arXiv:2006.04768 architecture. In the presented work, only the coarse-matching
block was left, the number of parameters was significantly reduced, and the
network was trained using a knowledge distillation technique. The comparison
showed that this approach allows to obtain an appropriate feature detection
accuracy for the student model compared to the teacher model in the coarse
matching block, despite the significant reduction of model size. Also, the
paper shows additional steps required to make model compatible with NVIDIA
TensorRT runtime, and shows an approach to optimize training method for low-end
GPUs.
- Abstract(参考訳): LoFTR arXiv:2104.00680は画像対上の適切な局所特徴マッチングを見つけるための効率的なディープラーニング手法である。
本稿では,計算性能が低くメモリが限られたデバイス上で動作するための最適化について報告する。
オリジナルのLoFTRアプローチはResNet arXiv:1512.03385ヘッドとLinear Transformer arXiv:2006.04768アーキテクチャに基づく2つのモジュールに基づいている。
提案手法では,粗マッチングブロックのみが残され,パラメータ数が大幅に減少し,知識蒸留技術を用いてネットワークを訓練した。
比較の結果,粗いマッチングブロックにおける教師モデルと比較して,モデルサイズが大幅に減少しているにもかかわらず,学生モデルに対して適切な特徴検出精度が得られることがわかった。
また、NVIDIA TensorRTランタイムとモデル互換化に必要な追加ステップを示し、ローエンドGPUのトレーニング方法を最適化するためのアプローチを示す。
関連論文リスト
- LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - MiniALBERT: Model Distillation via Parameter-Efficient Recursive
Transformers [12.432191400869002]
MiniALBERTは、完全にパラメータ化されたLM(BERTなど)の知識をコンパクトな再帰的な学生に変換する技術である。
提案したモデルを,様々な一般的・バイオメディカルなNLPタスクで検証し,その有効性を実証し,最先端および既存のコンパクトモデルと比較した。
論文 参考訳(メタデータ) (2022-10-12T17:23:21Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Incremental Learning of Structured Memory via Closed-Loop Transcription [20.255633973040183]
本研究は、インクリメンタルな設定で複数のオブジェクトクラスの構造化記憶を学習するための最小限の計算モデルを提案する。
本手法は,従来のインクリメンタルラーニング手法よりもシンプルで,モデルサイズ,ストレージ,計算の面でより効率的である。
実験結果から,本手法は破滅的忘れを効果的に軽減し,生成的リプレイよりも高い性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-02-11T02:20:43Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Follow Your Path: a Progressive Method for Knowledge Distillation [23.709919521355936]
本稿では,教師モデルの指導信号を学生のパラメータ空間に投影することで,新しいモデルに依存しないProKTを提案する。
画像とテキストの双方で実験した結果,提案したProKTは既存の知識蒸留法と比較して常に優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2021-07-20T07:44:33Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。