論文の概要: Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval
- arxiv url: http://arxiv.org/abs/2401.15362v1
- Date: Sat, 27 Jan 2024 09:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:38:23.270640
- Title: Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval
- Title(参考訳): 教師なし画像検索のためのトランスフォーマーベースクリッピングコントラスト量子化学習
- Authors: Ayush Dubey, Shiv Ram Dubey, Satish Kumar Singh, Wei-Ta Chu
- Abstract要約: 教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
- 参考スコア(独自算出の注目度): 15.982022297570108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised image retrieval aims to learn the important visual
characteristics without any given level to retrieve the similar images for a
given query image. The Convolutional Neural Network (CNN)-based approaches have
been extensively exploited with self-supervised contrastive learning for image
hashing. However, the existing approaches suffer due to lack of effective
utilization of global features by CNNs and biased-ness created by false
negative pairs in the contrastive learning. In this paper, we propose a
TransClippedCLR model by encoding the global context of an image using
Transformer having local context through patch based processing, by generating
the hash codes through product quantization and by avoiding the potential false
negative pairs through clipped contrastive learning. The proposed model is
tested with superior performance for unsupervised image retrieval on benchmark
datasets, including CIFAR10, NUS-Wide and Flickr25K, as compared to the recent
state-of-the-art deep models. The results using the proposed clipped
contrastive learning are greatly improved on all datasets as compared to same
backbone network with vanilla contrastive learning.
- Abstract(参考訳): 教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚特性を学習することを目的としている。
畳み込みニューラルネットワーク(CNN)ベースのアプローチは、画像ハッシュのための自己教師付きコントラスト学習によって広く活用されている。
しかし、既存のアプローチは、CNNによるグローバルな特徴の有効利用の欠如と、対照的な学習において偽陰性ペアが生み出す偏見に悩まされている。
本稿では,パッチベース処理による局所的コンテキストを持つトランスフォーマを用いて画像のグローバルコンテキストを符号化し,製品量子化によるハッシュコードの生成と,クリップ型コントラスト学習による潜在的な偽陰性ペアの回避により,トランスクリプトclrモデルを提案する。
CIFAR10, NUS-Wide, Flickr25Kを含むベンチマークデータセットの教師なし画像検索において, 最近の最先端のディープモデルと比較して, 優れた性能で検証した。
提案するクリップ型コントラスト学習は,バニラコントラスト学習を用いた同じバックボーンネットワークと比較して,全データセットにおいて大幅に改善されている。
関連論文リスト
- Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Feedback Assisted Adversarial Learning to Improve the Quality of
Cone-beam CT Images [2.179313476241343]
本稿では,CBCT画像の品質向上のために,識別器からのフィードバック機構を用いた逆学習を提案する。
このフレームワークは、U-netを判別器として使用し、局所的な識別結果を表す確率マップを出力する。
論文 参考訳(メタデータ) (2022-10-23T00:31:51Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Contrastive Learning based Hybrid Networks for Long-Tailed Image
Classification [31.647639786095993]
画像表現の教師付きコントラスト損失と、分類器を学習するためのクロスエントロピー損失からなる新しいハイブリッドネットワーク構造を提案する。
3つの長尾分類データセットに関する実験は、長尾分類における比較学習に基づくハイブリッドネットワークの提案の利点を示している。
論文 参考訳(メタデータ) (2021-03-26T05:22:36Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Low-Dose CT Image Denoising Using Parallel-Clone Networks [9.318613261995406]
本稿では,並列入力,並列出力損失,クローン-toclone特徴伝達の利点を利用した並列クローンニューラルネットワーク手法を提案する。
提案モデルでは,従来のモデルと同じような,あるいは少ない数の未知のネットワーク重みを保持できるが,学習過程を著しく加速させることができる。
論文 参考訳(メタデータ) (2020-05-14T05:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。