論文の概要: Large-to-small Image Resolution Asymmetry in Deep Metric Learning
- arxiv url: http://arxiv.org/abs/2210.05463v1
- Date: Tue, 11 Oct 2022 14:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:19:43.578460
- Title: Large-to-small Image Resolution Asymmetry in Deep Metric Learning
- Title(参考訳): 深部メトリック学習における大小画像分解能非対称性
- Authors: Pavel Suma, Giorgos Tolias
- Abstract要約: 我々は、高速な表現抽出を可能にするために、クエリの軽量処理による非対称なセットアップを小さな画像解像度で探索する。
目標は、大規模な解像度画像を操作するために訓練されたデータベースサンプルのためのネットワークと、きめ細かい画像の詳細の恩恵を得ることである。
我々は、分解能非対称性は、アーキテクチャ非対称性よりも性能/効率のトレードオフを最適化するより良い方法である、と結論付けている。
- 参考スコア(独自算出の注目度): 13.81293627340993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep metric learning for vision is trained by optimizing a representation
network to map (non-)matching image pairs to (non-)similar representations.
During testing, which typically corresponds to image retrieval, both database
and query examples are processed by the same network to obtain the
representation used for similarity estimation and ranking. In this work, we
explore an asymmetric setup by light-weight processing of the query at a small
image resolution to enable fast representation extraction. The goal is to
obtain a network for database examples that is trained to operate on large
resolution images and benefits from fine-grained image details, and a second
network for query examples that operates on small resolution images but
preserves a representation space aligned with that of the database network. We
achieve this with a distillation approach that transfers knowledge from a fixed
teacher network to a student via a loss that operates per image and solely
relies on coupled augmentations without the use of any labels. In contrast to
prior work that explores such asymmetry from the point of view of different
network architectures, this work uses the same architecture but modifies the
image resolution. We conclude that resolution asymmetry is a better way to
optimize the performance/efficiency trade-off than architecture asymmetry.
Evaluation is performed on three standard deep metric learning benchmarks,
namely CUB200, Cars196, and SOP. Code: https://github.com/pavelsuma/raml
- Abstract(参考訳): 画像対を(非)類似表現に(非)マッチングする表現ネットワークを最適化することにより、視覚深度学習を訓練する。
一般的に画像検索に対応するテスト中、データベースとクエリのサンプルは、同じネットワークで処理され、類似度推定とランキングに使われる表現を取得する。
本研究では,高速な表現抽出を実現するために,クエリの軽量処理による非対称なセットアップを小さな画像解像度で検討する。
目的は,大解像度画像と細粒度画像の利点を活かすために訓練されたデータベース例用ネットワークと,小解像度画像で動作するがデータベースネットワークの表現空間を保持するクエリ例用第2のネットワークを得ることである。
我々は,固定教師ネットワークからの知識を学生に伝達する蒸留手法により,イメージごとの操作を行う損失を解消し,ラベルを使わずに,結合強化にのみ依存する。
異なるネットワークアーキテクチャの観点からそのような非対称性を探索する先行作業とは対照的に、この作業は同じアーキテクチャを使用しているが、解像度は変更されている。
アーキテクチャの非対称性よりも、パフォーマンス/効率のトレードオフを最適化する方が、レゾリューション非対称性の方がよいと結論づける。
CUB200、Cars196、SOPの3つの標準深度学習ベンチマークで評価を行う。
コード: https://github.com/pavelsuma/raml
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Asymmetric Hash Code Learning for Remote Sensing Image Retrieval [22.91678927865952]
リモートセンシング画像検索のための非対称ハッシュ符号学習(AHCL)という新しい深層ハッシュ法を提案する。
AHCLは、クエリとデータベースイメージのハッシュコードを非対称に生成する。
3つの公開データセットに対する実験結果から,提案手法は精度と効率の点で対称法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-15T07:00:38Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - Principled network extraction from images [0.0]
本稿では,スケーラブルで効率的な画像からネットワークトポロジを抽出する原理モデルを提案する。
我々は,網膜血管系,スライムカビ,河川網の実際の画像を用いて本モデルを検証した。
論文 参考訳(メタデータ) (2020-12-23T15:56:09Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - A deep primal-dual proximal network for image restoration [8.797434238081372]
我々は、プリミティブ・デュアル・イテレーションから構築されたディープPDNetというディープネットワークを設計し、前もって分析を行い、標準的なペナル化可能性の最小化を図った。
フルラーニング」と「パートラーニング」の2つの異なる学習戦略が提案され、第1は最も効率的な数値である。
以上の結果から,提案したDeepPDNetは,MNISTと,より複雑なBSD68,BSD100,SET14データセットにおいて,画像復元と単一画像超解像処理に優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-02T08:29:52Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - Asymmetric Distribution Measure for Few-shot Learning [82.91276814477126]
メトリクスベースの少数ショット画像分類は、クエリ画像とサポートクラスの関係を測定することを目的としている。
本稿では,非対称分布測定(ADM)ネットワークを提案する。
5ドルの$-wayの$-shotタスクで最先端のメソッドよりも3.02%の$と1.56%の$を達成しています。
論文 参考訳(メタデータ) (2020-02-01T06:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。