論文の概要: Improve Contrastive Clustering Performance by Multiple Fusing-Augmenting ViT Blocks
- arxiv url: http://arxiv.org/abs/2511.08883v1
- Date: Thu, 13 Nov 2025 01:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.278859
- Title: Improve Contrastive Clustering Performance by Multiple Fusing-Augmenting ViT Blocks
- Title(参考訳): マルチFusing-augmenting ViTブロックによるコントラストクラスタリング性能の向上
- Authors: Cheng Wang, Shuisheng Zhou, Fengjiao Peng, Jin Sheng, Feng Ye, Yinli Dong,
- Abstract要約: 我々は、視覚変換器(ViT)の優れた特徴学習能力に基づいて、新しいFusing-augmenting ViT Block (MFAVBs) を設計する。
コントラストクラスタリングのバックボーンとして機能するMFAVBは、クラスタリング性能の点で最先端技術よりも優れている。
- 参考スコア(独自算出の注目度): 9.66175383697435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of image clustering, the widely used contrastive learning networks improve clustering performance by maximizing the similarity between positive pairs and the dissimilarity of negative pairs of the inputs. Extant contrastive learning networks, whose two encoders often implicitly interact with each other by parameter sharing or momentum updating, may not fully exploit the complementarity and similarity of the positive pairs to extract clustering features from input data. To explicitly fuse the learned features of positive pairs, we design a novel multiple fusing-augmenting ViT blocks (MFAVBs) based on the excellent feature learning ability of Vision Transformers (ViT). Firstly, two preprocessed augmentions as positive pairs are separately fed into two shared-weight ViTs, then their output features are fused to input into a larger ViT. Secondly, the learned features are split into a pair of new augmented positive samples and passed to the next FAVBs, enabling multiple fusion and augmention through MFAVBs operations. Finally, the learned features are projected into both instance-level and clustering-level spaces to calculate the cross-entropy loss, followed by parameter updates by backpropagation to finalize the training process. To further enhance ability of the model to distinguish between similar images, our input data for the network we propose is preprocessed augmentions with features extracted from the CLIP pretrained model. Our experiments on seven public datasets demonstrate that MFAVBs serving as the backbone for contrastive clustering outperforms the state-of-the-art techniques in terms of clustering performance.
- Abstract(参考訳): 画像クラスタリングの分野において、広く使われているコントラスト学習ネットワークは、正の対と負の対の相似性を最大化することによりクラスタリング性能を向上させる。
2つのエンコーダがパラメータ共有やモーメント更新によって暗黙的に相互に相互作用するコントラスト学習ネットワークは、入力データからクラスタリング特徴を抽出するために、正のペアの相補性と類似性を十分に活用できない可能性がある。
そこで我々は,視覚変換器(ViT)の優れた特徴学習能力に基づいて,学習した正の対の特徴を明示的に融合させるために,新しい多層拡張型ViTブロック(MFAVB)を設計する。
まず、正の対として2つの前処理されたオーグメンションを2つの共有重み付きViTに別々に供給し、その出力特徴を融合してより大きなViTに入力する。
第二に、学習された特徴は2つの新しい追加陽性サンプルに分割され、次のFAVBに渡され、MFAVBs操作による複数の融合と増大を可能にする。
最後に、学習した機能は、クロスエントロピー損失を計算するために、インスタンスレベルとクラスタレベルの両方のスペースに投影される。
類似画像の識別能力をさらに向上するため,提案するネットワークの入力データは,CLIP事前学習モデルから抽出した特徴を付加した事前処理である。
コントラストクラスタリングのバックボーンとして機能するMFAVBは,クラスタリング性能の点で最先端技術よりも優れていることを示す。
関連論文リスト
- BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Local Consensus Enhanced Siamese Network with Reciprocal Loss for
Two-view Correspondence Learning [35.5851523517487]
2視点対応学習は通常、一致の信頼性と相対的なポーズを共同で予測するエンドツーエンドネットワークを確立する。
本稿では,既存のモデルの特徴を増強するローカル・フィーチャー・コンセンサス (LFC) プラグイン・ブロックを提案する。
我々は既存のモデルを相互予測の監督を生かした相互損失を伴うシームズネットワークに拡張する。
論文 参考訳(メタデータ) (2023-08-06T22:20:09Z) - A Simplified Framework for Contrastive Learning for Node Representations [2.277447144331876]
グラフにノードを埋め込むために,グラフニューラルネットワークと組み合わせてコントラスト学習を展開できる可能性を検討する。
組込み行列の単純なカラムワイド後処理により, 組込み結果の品質とトレーニング時間を大幅に改善できることを示す。
この修正により、下流の分類タスクは最大1.5%改善され、8つの異なるベンチマークのうち6つで既存の最先端のアプローチに勝っている。
論文 参考訳(メタデータ) (2023-05-01T02:04:36Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Contrastive variational information bottleneck for aspect-based
sentiment analysis [36.83876224466177]
CVIB(Contrastive Variational Information Bottleneck)フレームワークを用いて,アスペクトベース感情分析(ABSA)の素早い相関性を低減することを提案する。
提案するCVIBフレームワークは,元のネットワークと自走ネットワークで構成され,これら2つのネットワークは,コントラスト学習によって同時に最適化される。
提案手法は, 全体的な予測性能, 堅牢性, 一般化の点で, 強力な競合相手よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T02:52:37Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - Vision Transformer for Contrastive Clustering [48.476602271481674]
Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対してその優位性を示している。
本稿では、VTCC(Vision Transformer for Contrastive Clustering)と呼ばれるエンドツーエンドのディープ・クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-26T17:00:35Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。