論文の概要: Large-to-small Image Resolution Asymmetry in Deep Metric Learning
- arxiv url: http://arxiv.org/abs/2210.05463v1
- Date: Tue, 11 Oct 2022 14:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:19:43.578460
- Title: Large-to-small Image Resolution Asymmetry in Deep Metric Learning
- Title(参考訳): 深部メトリック学習における大小画像分解能非対称性
- Authors: Pavel Suma, Giorgos Tolias
- Abstract要約: 我々は、高速な表現抽出を可能にするために、クエリの軽量処理による非対称なセットアップを小さな画像解像度で探索する。
目標は、大規模な解像度画像を操作するために訓練されたデータベースサンプルのためのネットワークと、きめ細かい画像の詳細の恩恵を得ることである。
我々は、分解能非対称性は、アーキテクチャ非対称性よりも性能/効率のトレードオフを最適化するより良い方法である、と結論付けている。
- 参考スコア(独自算出の注目度): 13.81293627340993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep metric learning for vision is trained by optimizing a representation
network to map (non-)matching image pairs to (non-)similar representations.
During testing, which typically corresponds to image retrieval, both database
and query examples are processed by the same network to obtain the
representation used for similarity estimation and ranking. In this work, we
explore an asymmetric setup by light-weight processing of the query at a small
image resolution to enable fast representation extraction. The goal is to
obtain a network for database examples that is trained to operate on large
resolution images and benefits from fine-grained image details, and a second
network for query examples that operates on small resolution images but
preserves a representation space aligned with that of the database network. We
achieve this with a distillation approach that transfers knowledge from a fixed
teacher network to a student via a loss that operates per image and solely
relies on coupled augmentations without the use of any labels. In contrast to
prior work that explores such asymmetry from the point of view of different
network architectures, this work uses the same architecture but modifies the
image resolution. We conclude that resolution asymmetry is a better way to
optimize the performance/efficiency trade-off than architecture asymmetry.
Evaluation is performed on three standard deep metric learning benchmarks,
namely CUB200, Cars196, and SOP. Code: https://github.com/pavelsuma/raml
- Abstract(参考訳): 画像対を(非)類似表現に(非)マッチングする表現ネットワークを最適化することにより、視覚深度学習を訓練する。
一般的に画像検索に対応するテスト中、データベースとクエリのサンプルは、同じネットワークで処理され、類似度推定とランキングに使われる表現を取得する。
本研究では,高速な表現抽出を実現するために,クエリの軽量処理による非対称なセットアップを小さな画像解像度で検討する。
目的は,大解像度画像と細粒度画像の利点を活かすために訓練されたデータベース例用ネットワークと,小解像度画像で動作するがデータベースネットワークの表現空間を保持するクエリ例用第2のネットワークを得ることである。
我々は,固定教師ネットワークからの知識を学生に伝達する蒸留手法により,イメージごとの操作を行う損失を解消し,ラベルを使わずに,結合強化にのみ依存する。
異なるネットワークアーキテクチャの観点からそのような非対称性を探索する先行作業とは対照的に、この作業は同じアーキテクチャを使用しているが、解像度は変更されている。
アーキテクチャの非対称性よりも、パフォーマンス/効率のトレードオフを最適化する方が、レゾリューション非対称性の方がよいと結論づける。
CUB200、Cars196、SOPの3つの標準深度学習ベンチマークで評価を行う。
コード: https://github.com/pavelsuma/raml
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for
Visual Place Recognition [77.89584556347509]
視覚的位置認識(VPR)のための画像間相関認識を用いたロバストなグローバル表現法を提案する。
提案手法はPitts30k上の94.5%のR@1を512dimのグローバルな特徴を用いて達成する。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - A Triplet-loss Dilated Residual Network for High-Resolution
Representation Learning in Image Retrieval [0.0]
ローカライゼーションなどのいくつかのアプリケーションでは、画像検索が最初のステップとして使用される。
本論文では,トレーニング可能なパラメータが少ない,単純かつ効率的な画像検索システムを提案する。
提案手法は三重項損失を有する拡張残差畳み込みニューラルネットワークの利点である。
論文 参考訳(メタデータ) (2023-03-15T07:01:44Z) - Asymmetric Hash Code Learning for Remote Sensing Image Retrieval [22.91678927865952]
リモートセンシング画像検索のための非対称ハッシュ符号学習(AHCL)という新しい深層ハッシュ法を提案する。
AHCLは、クエリとデータベースイメージのハッシュコードを非対称に生成する。
3つの公開データセットに対する実験結果から,提案手法は精度と効率の点で対称法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-15T07:00:38Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - Principled network extraction from images [0.0]
本稿では,スケーラブルで効率的な画像からネットワークトポロジを抽出する原理モデルを提案する。
我々は,網膜血管系,スライムカビ,河川網の実際の画像を用いて本モデルを検証した。
論文 参考訳(メタデータ) (2020-12-23T15:56:09Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - A deep primal-dual proximal network for image restoration [8.797434238081372]
我々は、プリミティブ・デュアル・イテレーションから構築されたディープPDNetというディープネットワークを設計し、前もって分析を行い、標準的なペナル化可能性の最小化を図った。
フルラーニング」と「パートラーニング」の2つの異なる学習戦略が提案され、第1は最も効率的な数値である。
以上の結果から,提案したDeepPDNetは,MNISTと,より複雑なBSD68,BSD100,SET14データセットにおいて,画像復元と単一画像超解像処理に優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-02T08:29:52Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - Asymmetric Distribution Measure for Few-shot Learning [82.91276814477126]
メトリクスベースの少数ショット画像分類は、クエリ画像とサポートクラスの関係を測定することを目的としている。
本稿では,非対称分布測定(ADM)ネットワークを提案する。
5ドルの$-wayの$-shotタスクで最先端のメソッドよりも3.02%の$と1.56%の$を達成しています。
論文 参考訳(メタデータ) (2020-02-01T06:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。