論文の概要: Multi-Modal Proxy Learning Towards Personalized Visual Multiple Clustering
- arxiv url: http://arxiv.org/abs/2404.15655v1
- Date: Wed, 24 Apr 2024 05:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:09:25.140217
- Title: Multi-Modal Proxy Learning Towards Personalized Visual Multiple Clustering
- Title(参考訳): パーソナライズされたビジュアル多重クラスタリングに向けたマルチモーダルプロキシ学習
- Authors: Jiawei Yao, Qi Qian, Juhua Hu,
- Abstract要約: マルチMaPは,マルチモーダルなプロキシ学習プロセスを用いた新しい手法である。
キーワードを通じてユーザの関心をキャプチャすると同時に、関連するクラスタリングの特定を容易にする。
実験の結果,Multi-MaPは全ベンチマークのマルチクラスタ・ビジョンタスクにおいて常に最先端の手法より優れていることがわかった。
- 参考スコア(独自算出の注目度): 8.447067012487866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple clustering has gained significant attention in recent years due to its potential to reveal multiple hidden structures of data from different perspectives. The advent of deep multiple clustering techniques has notably advanced the performance by uncovering complex patterns and relationships within large datasets. However, a major challenge arises as users often do not need all the clusterings that algorithms generate, and figuring out the one needed requires a substantial understanding of each clustering result. Traditionally, aligning a user's brief keyword of interest with the corresponding vision components was challenging, but the emergence of multi-modal and large language models (LLMs) has begun to bridge this gap. In response, given unlabeled target visual data, we propose Multi-MaP, a novel method employing a multi-modal proxy learning process. It leverages CLIP encoders to extract coherent text and image embeddings, with GPT-4 integrating users' interests to formulate effective textual contexts. Moreover, reference word constraint and concept-level constraint are designed to learn the optimal text proxy according to the user's interest. Multi-MaP not only adeptly captures a user's interest via a keyword but also facilitates identifying relevant clusterings. Our extensive experiments show that Multi-MaP consistently outperforms state-of-the-art methods in all benchmark multi-clustering vision tasks. Our code is available at https://github.com/Alexander-Yao/Multi-MaP.
- Abstract(参考訳): 近年、異なる視点から複数の隠れたデータ構造を明らかにする可能性から、複数のクラスタリングが注目されている。
深層クラスタリング技術の出現は、大規模データセット内の複雑なパターンと関係を明らかにすることによって、パフォーマンスを著しく向上させた。
しかし、アルゴリズムが生成するすべてのクラスタリングをユーザが必要とせず、必要なクラスタリングを判断するためには、クラスタリング結果の相当な理解が必要であるため、大きな課題が生じる。
伝統的に、ユーザの短いキーワードと対応する視覚コンポーネントを一致させることは困難であったが、マルチモーダルおよび大規模言語モデル(LLM)の出現はこのギャップを埋め始めている。
そこで本研究では,マルチモーダル・プロキシ・ラーニング・プロセスを用いた新しい手法であるMulti-MaPを提案する。
これはCLIPエンコーダを利用してコヒーレントテキストと画像埋め込みを抽出し、GPT-4はユーザの興味を統合して効果的なテキストコンテキストを定式化する。
さらに、ユーザの関心に応じて最適なテキストプロキシを学習するために、参照語制約と概念レベルの制約を設計する。
Multi-MaPは、キーワードを通じてユーザの興味を適切にキャプチャするだけでなく、関連するクラスタリングの特定を容易にする。
広範にわたる実験により,Multi-MaPは,全てのベンチマークマルチクラスタ・ビジョンタスクにおいて,最先端の手法を一貫して上回っていることがわかった。
私たちのコードはhttps://github.com/Alexander-Yao/Multi-MaP.comで公開されています。
関連論文リスト
- Customized Multiple Clustering via Multi-Modal Subspace Proxy Learning [8.447067012487866]
我々は、マルチモーダルなサブスペースプロキシ学習フレームワークを組み込んだ、新しいエンドツーエンドのマルチクラスタリングアプローチであるMulti-Subを紹介する。
我々の手法は、視覚的多重クラスタリングタスクにおいて、幅広いデータセットの集合において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-06T15:14:27Z) - CDIMC-net: Cognitive Deep Incomplete Multi-view Clustering Network [53.72046586512026]
我々は,認知的深層不完全多視点クラスタリングネットワーク(CDIMC-net)という,新しい不完全多視点クラスタリングネットワークを提案する。
ビュー固有のディープエンコーダとグラフ埋め込み戦略をフレームワークに組み込むことで、各ビューの高レベルな特徴とローカル構造をキャプチャする。
人間の認知、すなわち、簡単からハードに学ぶことに基づいて、モデルトレーニングのための最も自信あるサンプルを選択するための自己評価戦略を導入する。
論文 参考訳(メタデータ) (2024-03-28T15:45:03Z) - Incomplete Contrastive Multi-View Clustering with High-Confidence
Guiding [7.305817202715752]
高信頼誘導(ICMVC)を用いた非完全コントラストマルチビュークラスタリング手法を提案する。
まず、欠落した値問題に対処するために、マルチビュー整合関係転送とグラフ畳み込みネットワークを提案する。
第2に、補完情報を活用するために、インスタンスレベルの注意融合と高信頼誘導を提案する。
論文 参考訳(メタデータ) (2023-12-14T07:28:41Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - One-step Multi-view Clustering with Diverse Representation [47.41455937479201]
本稿では,多視点学習と$k$-meansを統合フレームワークに組み込んだ一段階のマルチビュークラスタリングを提案する。
そこで本研究では,効率の良い最適化アルゴリズムを開発し,その解法について述べる。
論文 参考訳(メタデータ) (2023-06-08T02:52:24Z) - Multi-view Semantic Consistency based Information Bottleneck for
Clustering [13.589996737740208]
クラスタリングのための多視点セマンティック一貫性に基づく情報ボトルネック(MSCIB)について紹介する。
MSCIBは、異なる視点における情報ボトルネックの学習プロセスを改善するために、セマンティック一貫性を追求する。
セマンティック空間における複数のビューのアライメント操作を行い、多視点データの貴重な一貫した情報を共同で達成する。
論文 参考訳(メタデータ) (2023-02-28T02:01:58Z) - Fast Multi-view Clustering via Ensembles: Towards Scalability,
Superiority, and Simplicity [63.85428043085567]
本稿では,アンサンブル(FastMICE)アプローチによる高速なマルチビュークラスタリングを提案する。
ランダムなビュー群の概念は、多目的なビューワイズ関係を捉えるために提示される。
FastMICEは、ほぼ線形時間と空間の複雑さを持ち、データセット固有のチューニングは不要である。
論文 参考訳(メタデータ) (2022-03-22T09:51:24Z) - Face, Body, Voice: Video Person-Clustering with Multiple Modalities [85.0282742801264]
それまでの方法は、顔クラスタリングのより狭いタスクに焦点を当てていた。
現在のデータセットのほとんどは、人物クラスタリングではなく、顔クラスタリングのタスクのみを評価している。
マルチモーダルな人物クラスタリングを評価するためのビデオパーソンクラスタリングデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:59:40Z) - Deep Incomplete Multi-View Multiple Clusterings [41.43164409639238]
データビューと複数の共有表現を同時に補完する、深い不完全なマルチビュー多重クラスタリングフレームワークを導入する。
ベンチマークデータセットの実験では、DiMVMCは、多様性と品質の高い複数のクラスタリングの生成において、最先端の競合よりも優れていることが確認されている。
論文 参考訳(メタデータ) (2020-10-02T08:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。