論文の概要: Geometric Analysis of Self-Supervised Vision Representations for Semantic Image Retrieval
- arxiv url: http://arxiv.org/abs/2604.24469v1
- Date: Mon, 27 Apr 2026 13:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.023276
- Title: Geometric Analysis of Self-Supervised Vision Representations for Semantic Image Retrieval
- Title(参考訳): 意味的画像検索のための自己監督型視覚表現の幾何学的解析
- Authors: Esteban Rodríguez-Betancourt, Edgar Casasola-Murillo,
- Abstract要約: 自己指導型視覚学習法はほとんどCBIR関連文献に報告されていない。
視覚の自己教師型学習手法によって学習された表現が、典型的な検索スタックの下でどのように機能するかを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Content-based image retrieval (CBIR) systems enable users to search images based on visual content instead of relying on metadata. The text domain has benefited from vector search of representations created with unsupervised methods such as BERT. However, modern self-supervised learning methods for vision are mostly not reported in CBIR-related literature, instead relying on supervised models or multi-modal methods that align text and vision. We evaluate how the representations learned by modern self-supervised learning methods for vision perform under typical retrieval stacks that leverage vector databases and nearest neighbor search. Our evaluation reveals that the latent space geometry impacts approximate nearest neighbor (ANN) indexing. Specifically, highly anisotropic representations with high skewness produced by several modern SSL methods degrade the performance of partition-based and hashing-based search, even if their own linear probe or K-NN accuracy is not affected. In contrast, representations with higher isotropy and local purity better satisfy the distance-based assumptions of ANN indexes, leading to improved semantic retrieval performance.
- Abstract(参考訳): CBIR(Content-based Image Search)システムでは、メタデータに頼るのではなく、視覚的コンテンツに基づいて画像を検索することができる。
テキストドメインはBERTのような教師なしのメソッドで生成された表現のベクトル探索の恩恵を受けている。
しかし、現代の自己指導型視覚学習法はほとんどCBIR関連の文献では報告されておらず、代わりに教師付きモデルや、テキストとビジョンを整列するマルチモーダル手法に依存している。
ベクトルデータベースと近接探索を利用する典型的な検索スタックにおいて,視覚の自己教師付き学習手法によって学習された表現がどのように機能するかを評価する。
評価の結果, 潜時空間幾何が近接した近接指数(ANN)に影響を及ぼすことが明らかとなった。
具体的には、複数の現代的なSSLメソッドによって生成される高い歪度を持つ高度異方性表現は、たとえ自身の線形プローブやK-NN精度が影響を受けなくても、パーティションベースおよびハッシュベースサーチの性能を低下させる。
対照的に、より高い等方性と局所純度を持つ表現は、ANNインデックスの距離に基づく仮定を満足させ、セマンティック検索性能が向上する。
関連論文リスト
- Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models [77.3748853516374]
視覚言語モデルのための学習不要なモデル固有のグラウンドリング手法を提案する。
モデルの次トーケン分布のエントロピーを計算し、それを視覚トークン埋め込みにバックプロパタイズしてエントロピー勾配のレバレンスマップを得る。
次に、複数のコヒーレント領域を抽出・ランク付けし、マルチエビデンスクエリをサポートし、空間エントロピー停止規則付き反復的なズーム・アンド・リグラウンド手順を導入する。
論文 参考訳(メタデータ) (2026-04-09T16:51:42Z) - Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - SMLNet: A SPD Manifold Learning Network for Infrared and Visible Image Fusion [60.18614468818683]
マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習を提案する。
我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-16T03:09:49Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Neural Eigenfunctions Are Structured Representation Learners [93.53445940137618]
本稿ではニューラル固有写像という,構造化された適応長の深部表現を提案する。
本稿では,データ拡張設定における正の関係から固有関数が導出される場合,NeuralEFを適用することで目的関数が得られることを示す。
画像検索システムにおいて,適応長符号のような表現を用いることを実証する。
論文 参考訳(メタデータ) (2022-10-23T07:17:55Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Semantically-Guided Representation Learning for Self-Supervised
Monocular Depth [40.49380547487908]
本稿では,自己教師付き表現学習を指導するために,事前訓練型セマンティックセマンティック・セマンティクス・ネットワークを利用した新しいアーキテクチャを提案する。
本手法は,全画素,細粒度細部,意味カテゴリーごとの自己教師型単眼深度予測のための技術の現状を改善した。
論文 参考訳(メタデータ) (2020-02-27T18:40:10Z) - Graph Neighborhood Attentive Pooling [0.5493410630077189]
ネットワーク表現学習(NRL)は,高次元およびスパースグラフの低次元ベクトル表現を学習するための強力な手法である。
本稿では,ノード近傍の異なる部分への入場を注意型プールネットワークを用いて学習するGAPと呼ばれる新しい文脈依存アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-28T15:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。