論文の概要: Spatially Optimized Compact Deep Metric Learning Model for Similarity Search
- arxiv url: http://arxiv.org/abs/2404.06593v1
- Date: Tue, 9 Apr 2024 19:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 16:08:54.327354
- Title: Spatially Optimized Compact Deep Metric Learning Model for Similarity Search
- Title(参考訳): 類似度探索のための空間最適化型コンパクト深度学習モデル
- Authors: Md. Farhadul Islam, Md. Tanzim Reza, Meem Arafat Manab, Mohammad Rakibul Hasan Mahin, Sarah Zabeen, Jannatun Noor,
- Abstract要約: 類似性探索は空間的特徴が重要な出力を決定する重要なタスクである。
本研究では,コンパクトな畳み込みモデルとともに単一の畳み込み特徴抽出器の層を利用することにより,類似性探索の性能が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 1.0015171648915433
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial optimization is often overlooked in many computer vision tasks. Filters should be able to recognize the features of an object regardless of where it is in the image. Similarity search is a crucial task where spatial features decide an important output. The capacity of convolution to capture visual patterns across various locations is limited. In contrast to convolution, the involution kernel is dynamically created at each pixel based on the pixel value and parameters that have been learned. This study demonstrates that utilizing a single layer of involution feature extractor alongside a compact convolution model significantly enhances the performance of similarity search. Additionally, we improve predictions by using the GELU activation function rather than the ReLU. The negligible amount of weight parameters in involution with a compact model with better performance makes the model very useful in real-world implementations. Our proposed model is below 1 megabyte in size. We have experimented with our proposed methodology and other models on CIFAR-10, FashionMNIST, and MNIST datasets. Our proposed method outperforms across all three datasets.
- Abstract(参考訳): 空間最適化は、多くのコンピュータビジョンタスクにおいて見過ごされがちである。
フィルタは、画像のどこにあっても、オブジェクトの特徴を認識できなければならない。
類似性探索は空間的特徴が重要な出力を決定する重要なタスクである。
様々な場所で視覚パターンをとらえる畳み込みの能力は限られている。
畳み込みとは対照的に、インボリューションカーネルは、学習されたピクセル値とパラメータに基づいて各ピクセルで動的に生成される。
本研究では,コンパクトな畳み込みモデルとともに単一の畳み込み特徴抽出器の層を利用することにより,類似性探索の性能が著しく向上することを示す。
さらに,ReLUではなくGELUアクティベーション関数を用いて予測を改善する。
より優れた性能を持つコンパクトモデルとの畳み込みにおける無視できる量の重みパラメータは、実世界の実装において非常に有用である。
提案モデルは1メガバイト以下である。
CIFAR-10, FashionMNIST, MNISTデータセット上で提案手法および他のモデルの実験を行った。
提案手法は3つのデータセットにまたがって性能が向上する。
関連論文リスト
- MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion [32.38584862347954]
この目的を達成するために,動的リフレッシュ戦略(MMDRFuse)を用いた軽量蒸留ミニモデルを提案する。
モデルパシモニーを追求するために、合計で113のトレーニング可能なパラメータ(0.44KB)を持つ非常に小さな畳み込みネットワークを得る。
いくつかの公開データセットの実験により,本手法はモデル効率と複雑性の点で有望な優位性を示すことが示された。
論文 参考訳(メタデータ) (2024-08-28T08:52:33Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Adaptive Convolutions with Per-pixel Dynamic Filter Atom [24.691793951360914]
画素ごとの適応フィルタによるスケーラブルな動的畳み込みを導入する。
コンボリューション層へのプラグアンドプレイ置換として、ピクセル単位の動的原子による適応的畳み込みは、画像内分散の明示的なモデリングを可能にする。
本稿では,提案手法がタスク間で同等あるいはさらに優れたパフォーマンスを実現することを示す実験を行う。
論文 参考訳(メタデータ) (2021-08-17T22:04:10Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - Learning Feature Aggregation for Deep 3D Morphable Models [57.1266963015401]
階層レベルで機能集約を向上するためのマッピング行列を学習するための注意に基づくモジュールを提案する。
実験の結果,マッピング行列のエンドツーエンドトレーニングにより,様々な3次元形状データセットの最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-05-05T16:41:00Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection [33.15192824888279]
複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-20T08:33:25Z) - Improving the Detection of Burnt Areas in Remote Sensing using
Hyper-features Evolved by M3GP [0.0]
燃焼地域分類のためのリモートセンシングモデルの改善を目的として,2つの目標を設定した。
1つ目は、特徴空間とモデルの予測能力の関係を理解し、学習と一般化の違いを説明することである。
複数の画像から構築されたデータセットのトレーニングによって、より一般化されたモデルが得られることが分かりました。
論文 参考訳(メタデータ) (2020-01-31T20:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。