論文の概要: Keep It Light! Simplifying Image Clustering Via Text-Free Adapters
- arxiv url: http://arxiv.org/abs/2502.04226v1
- Date: Thu, 06 Feb 2025 17:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:42.843754
- Title: Keep It Light! Simplifying Image Clustering Via Text-Free Adapters
- Title(参考訳): テキストフリーアダプタによる画像クラスタリングをシンプルに!
- Authors: Yicen Li, Haitz Sáez de Ocáriz Borde, Anastasis Kratsios, Paul D. McNicholas,
- Abstract要約: 本研究では, 深層クラスタリングにおいて, テキストフリーかつ高度に単純化されたトレーニングパイプラインを用いて, より複雑な最先端手法による競合性能を実現することができることを示す。
CIFAR-10、CIFAR-20、CIFAR-100、STL-10、ImageNet-10、ImageNet-Dogsといったベンチマークデータセットの実験は、SCPが高い競争性能を達成することを示した。
- 参考スコア(独自算出の注目度): 9.662142193327309
- License:
- Abstract: Many competitive clustering pipelines have a multi-modal design, leveraging large language models (LLMs) or other text encoders, and text-image pairs, which are often unavailable in real-world downstream applications. Additionally, such frameworks are generally complicated to train and require substantial computational resources, making widespread adoption challenging. In this work, we show that in deep clustering, competitive performance with more complex state-of-the-art methods can be achieved using a text-free and highly simplified training pipeline. In particular, our approach, Simple Clustering via Pre-trained models (SCP), trains only a small cluster head while leveraging pre-trained vision model feature representations and positive data pairs. Experiments on benchmark datasets including CIFAR-10, CIFAR-20, CIFAR-100, STL-10, ImageNet-10, and ImageNet-Dogs, demonstrate that SCP achieves highly competitive performance. Furthermore, we provide a theoretical result explaining why, at least under ideal conditions, additional text-based embeddings may not be necessary to achieve strong clustering performance in vision.
- Abstract(参考訳): 多くの競合するクラスタリングパイプラインは、大規模言語モデル(LLM)や他のテキストエンコーダを活用するマルチモーダル設計と、実際の下流アプリケーションでは利用できないテキストイメージペアを備えている。
さらに、そのようなフレームワークは一般に訓練が複雑で、かなりの計算資源を必要とするため、広く採用されることは困難である。
本研究では, 深層クラスタリングにおいて, テキストフリーかつ高度に単純化されたトレーニングパイプラインを用いて, より複雑な最先端手法による競合性能を実現することができることを示す。
特に,我々のアプローチであるSimple Clustering via Pre-trained Model (SCP)では,事前学習した視覚モデルの特徴表現と肯定的なデータペアを活用しながら,小さなクラスタヘッドのみを訓練する。
CIFAR-10、CIFAR-20、CIFAR-100、STL-10、ImageNet-10、ImageNet-Dogsといったベンチマークデータセットの実験は、SCPが高い競争性能を達成することを示した。
さらに、少なくとも理想的な条件下では、視覚において強力なクラスタリング性能を達成するためにテキストベースの埋め込みが不要である理由を説明する理論的結果を提供する。
関連論文リスト
- HyperCLIP: Adapting Vision-Language models with Hypernetworks [43.23792024551352]
我々は、ハイパーネットワークと共に小さな画像エンコーダを使用する、HyperCLIPと呼ばれる視覚言語アーキテクチャを提案する。
モデルの3つのコンポーネント(ハイパーネットワーク、イメージエンコーダ、テキストエンコーダ)はすべて、共同でエンドツーエンドでトレーニングされている。
HyperCLIPは、小さなイメージエンコーダを持つSigLIPトレーニングモデルのゼロショット精度をImageNetで最大3%、CIFAR-100で5%向上し、トレーニングスループットのオーバーヘッドを最小限に抑える。
論文 参考訳(メタデータ) (2024-12-21T21:19:08Z) - Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。
我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。
我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文 参考訳(メタデータ) (2024-12-11T08:03:35Z) - CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance [14.849943391904882]
CLIP-PING: Proximus Intrinsic Nebors Guidanceを用いたコントラスト言語画像事前学習を提案する。
CLIP-Pingブートストラップは任意の事前訓練エンコーダから抽出され,近縁者の本質的な指導を得る。
実験の結果、CLIP-PINGはゼロショットの一般化とクロスモーダル検索タスクにおいて、明らかに仲間を上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-05T04:58:28Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。