Fugu-MT 論文翻訳(概要): Self-Supervised Consistent Quantization for Fully Unsupervised Image Retrieval

論文の概要: Self-Supervised Consistent Quantization for Fully Unsupervised Image Retrieval

arxiv url: http://arxiv.org/abs/2206.09806v1
Date: Mon, 20 Jun 2022 14:39:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-22 16:58:39.376386
Title: Self-Supervised Consistent Quantization for Fully Unsupervised Image Retrieval
Title（参考訳）: 完全教師なし画像検索のための自己教師付き一貫性量子化
Authors: Guile Wu, Chao Zhang, and Stephan Liwicki
Abstract要約: 教師なし画像検索は、高価なデータアノテーションを使わずに効率的な検索システムを学習することを目的としている。近年の進歩は、視覚的特徴と量子化符号を協調的に最適化するために、深いモデルをスクラッチからトレーニングすることを目的とした、完全な教師なし画像検索を提案する。本稿では, 部分一貫した量子化と大域一貫した量子化からなる, 完全教師なし画像検索のための, 自己教師付き一貫した量子化手法を提案する。
参考スコア（独自算出の注目度）: 17.422973861218182
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised image retrieval aims to learn an efficient retrieval system without expensive data annotations, but most existing methods rely heavily on handcrafted feature descriptors or pre-trained feature extractors. To minimize human supervision, recent advance proposes deep fully unsupervised image retrieval aiming at training a deep model from scratch to jointly optimize visual features and quantization codes. However, existing approach mainly focuses on instance contrastive learning without considering underlying semantic structure information, resulting in sub-optimal performance. In this work, we propose a novel self-supervised consistent quantization approach to deep fully unsupervised image retrieval, which consists of part consistent quantization and global consistent quantization. In part consistent quantization, we devise part neighbor semantic consistency learning with codeword diversity regularization. This allows to discover underlying neighbor structure information of sub-quantized representations as self-supervision. In global consistent quantization, we employ contrastive learning for both embedding and quantized representations and fuses these representations for consistent contrastive regularization between instances. This can make up for the loss of useful representation information during quantization and regularize consistency between instances. With a unified learning objective of part and global consistent quantization, our approach exploits richer self-supervision cues to facilitate model learning. Extensive experiments on three benchmark datasets show the superiority of our approach over the state-of-the-art methods.
Abstract（参考訳）: 教師なし画像検索は、高価なデータアノテーションを使わずに効率的な検索システムを学ぶことを目的としている。近年,人間の監視を最小限に抑えるため,深層モデルをスクラッチからトレーニングし,視覚的特徴量と量子化符号を共同で最適化する深層完全教師なし画像検索を提案する。しかし、既存のアプローチは、基本となる意味構造情報を考慮せずに、たとえばコントラスト学習に重点を置いており、その結果、準最適性能が得られる。本研究では, 部分一貫した量子化と大域一貫した量子化からなる, 完全教師なし画像検索のための新しい自己教師付き一貫した量子化手法を提案する。部分一貫した量子化では、隣接するセマンティックな一貫性学習をコードワードの多様性規則化で考案する。これにより、サブ量子化表現の基盤となる隣接構造情報を自己スーパービジョンとして発見することができる。グローバル一貫性量子化では、埋め込み表現と量子化表現の両方にコントラスト学習を用い、インスタンス間の一貫性のあるコントラスト正規化のためにこれらの表現を融合する。これは量子化中に有用な表現情報の損失を補い、インスタンス間の一貫性を規則化する。統一的な学習目標であるパートとグローバル一貫性量子化により,より豊かな自己スーパービジョンを活用し,モデル学習を促進する。 3つのベンチマークデータセットに関する広範な実験は、最先端の手法よりも、我々のアプローチが優れていることを示している。

関連論文リスト

Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-29T10:17:57Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
A Bayesian Approach to Weakly-supervised Laparoscopic Image Segmentation [1.9639956888747314]
スパースアノテーションを用いた腹腔鏡下画像分割法について検討した。本稿では,モデルのセグメンテーションの精度と解釈可能性を高めるために,ベイズ的深層学習手法を提案する。
論文参考訳（メタデータ） (2024-10-11T04:19:48Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Self-Supervised Representation Learning with Meta Comprehensive Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文参考訳（メタデータ） (2024-03-03T15:53:48Z)
Modeling Multiple Views via Implicitly Preserving Global Consistency and Local Complementarity [61.05259660910437]
複数の視点から表現を学習するために,グローバルな一貫性と相補性ネットワーク(CoCoNet)を提案する。グローバルな段階では、重要な知識はビュー間で暗黙的に共有され、そのような知識を捕捉するためのエンコーダの強化は、学習された表現の識別性を向上させることができる。最後に、局所的な段階において、横断的な識別的知識を結合する相補的要素を提案し、また、エンコーダが視点的識別性だけでなく、横断的な相補的情報も学習するように誘導する。
論文参考訳（メタデータ） (2022-09-16T09:24:00Z)
Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2021-12-15T01:45:32Z)
Efficient Iterative Amortized Inference for Learning Symmetric and Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文参考訳（メタデータ） (2021-06-07T14:02:49Z)
An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T02:27:55Z)
Information Maximization Clustering via Multi-View Self-Labelling [9.947717243638289]
本稿では,意味のある表現を同時に学習し,対応するアノテーションを割り当てる単一フェーズクラスタリング手法を提案する。これは、離散表現をネットを通じて自己監督パラダイムに統合することで達成される。実験の結果,提案手法は,平均精度89.1%,49.0%で最先端技術を上回ることがわかった。
論文参考訳（メタデータ） (2021-03-12T16:04:41Z)
Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。そして、理論的に学習された潜在表現の多元性を証明する。
論文参考訳（メタデータ） (2020-11-12T02:29:29Z)
Unsupervised Image Classification for Deep Representation Learning [42.09716669386924]
埋め込みクラスタリングを使わずに、教師なしのイメージ分類フレームワークを提案する。提案手法の有効性を証明するために,ImageNetデータセットの実験を行った。
論文参考訳（メタデータ） (2020-06-20T02:57:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。