論文の概要: Clustering-Induced Generative Incomplete Image-Text Clustering (CIGIT-C)
- arxiv url: http://arxiv.org/abs/2209.13763v1
- Date: Wed, 28 Sep 2022 01:19:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:54:55.109915
- Title: Clustering-Induced Generative Incomplete Image-Text Clustering (CIGIT-C)
- Title(参考訳): クラスタリングによる生成不完全画像テキストクラスタリング(CIGIT-C)
- Authors: Dongjin Guo, Xiaoming Su, Jiatai Wang, Limin Liu, Zhiyong Pei, Zhiwei
Xu
- Abstract要約: 本稿では,クラスタリングによる生成不完全画像テキストクラスタリング(CIGIT-C)ネットワークを提案する。
まず、モダリティ固有のエンコーダを用いて、元の特徴をより特異な部分空間にマッピングする。
イントラモダリティとインターモダリティ間の潜伏接続は、徹底的に調査されている。
- 参考スコア(独自算出の注目度): 3.2062075983668343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The target of image-text clustering (ITC) is to find correct clusters by
integrating complementary and consistent information of multi-modalities for
these heterogeneous samples. However, the majority of current studies analyse
ITC on the ideal premise that the samples in every modality are complete. This
presumption, however, is not always valid in real-world situations. The missing
data issue degenerates the image-text feature learning performance and will
finally affect the generalization abilities in ITC tasks. Although a series of
methods have been proposed to address this incomplete image text clustering
issue (IITC), the following problems still exist: 1) most existing methods
hardly consider the distinct gap between heterogeneous feature domains. 2) For
missing data, the representations generated by existing methods are rarely
guaranteed to suit clustering tasks. 3) Existing methods do not tap into the
latent connections both inter and intra modalities. In this paper, we propose a
Clustering-Induced Generative Incomplete Image-Text Clustering(CIGIT-C) network
to address the challenges above. More specifically, we first use
modality-specific encoders to map original features to more distinctive
subspaces. The latent connections between intra and inter-modalities are
thoroughly explored by using the adversarial generating network to produce one
modality conditional on the other modality. Finally, we update the
corresponding modalityspecific encoders using two KL divergence losses.
Experiment results on public image-text datasets demonstrated that the
suggested method outperforms and is more effective in the IITC job.
- Abstract(参考訳): 画像テキストクラスタリング(ITC)の目的は、これらの異種サンプルに対して、相補的で一貫した情報を統合することで、正しいクラスタを見つけることである。
しかし、現在の研究の大部分は、あらゆるモダリティのサンプルが完成するという理想的な前提でITCを分析している。
しかし、この推定は現実の状況では必ずしも有効ではない。
不足しているデータ問題は、画像テキスト機能学習性能を低下させ、最終的にitcタスクの一般化能力に影響を与える。
この不完全な画像テキストクラスタリング問題(IITC)に対処する一連の手法が提案されているが、次のような問題が残っている。
1) 既存手法の多くは, 異種特徴領域間の差をほとんど考慮しない。
2) 不足データでは,既存の手法が生成する表現がクラスタリングタスクに適合することがほとんどない。
3) 既存手法では,インターモーダルとイントラモーダルの両方の潜在接続を利用できない。
本稿では,クラスタリングによる生成不完全画像テキストクラスタリング(CIGIT-C)ネットワークを提案する。
より具体的には、最初にモジュラリティ固有のエンコーダを使用して、元の特徴をより特異な部分空間にマッピングする。
逆生成ネットワークを用いて一方のモダリティ条件を他方のモダリティ上で生成することにより、内部モダリティと相互モダリティの間の潜在接続を徹底的に検討する。
最後に、2つのkl分岐損失を用いて対応するモダリティ固有エンコーダを更新する。
公開画像テキストデータセットを用いた実験の結果,提案手法はIITCジョブよりも優れ,有効であることがわかった。
関連論文リスト
- CDIMC-net: Cognitive Deep Incomplete Multi-view Clustering Network [53.72046586512026]
我々は,認知的深層不完全多視点クラスタリングネットワーク(CDIMC-net)という,新しい不完全多視点クラスタリングネットワークを提案する。
ビュー固有のディープエンコーダとグラフ埋め込み戦略をフレームワークに組み込むことで、各ビューの高レベルな特徴とローカル構造をキャプチャする。
人間の認知、すなわち、簡単からハードに学ぶことに基づいて、モデルトレーニングのための最も自信あるサンプルを選択するための自己評価戦略を導入する。
論文 参考訳(メタデータ) (2024-03-28T15:45:03Z) - Stable Cluster Discrimination for Deep Clustering [7.175082696240088]
ディープクラスタリングは、インスタンスの表現(つまり、表現学習)を最適化し、固有のデータ分散を探索することができる。
結合された目的は、すべてのインスタンスが一様機能に崩壊する、自明な解決策を意味する。
本研究では,1段階クラスタリングにおいて,教師あり学習における一般的な識別タスクが不安定であることを示す。
新規な安定クラスタ識別(SeCu)タスクを提案し、それに応じて新しいハードネス対応クラスタリング基準を得ることができる。
論文 参考訳(メタデータ) (2023-11-24T06:43:26Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Scalable Incomplete Multi-View Clustering with Structure Alignment [71.62781659121092]
本稿では,新しいアンカーグラフ学習フレームワークを提案する。
ビュー固有のアンカーグラフを構築し、異なるビューから補完情報をキャプチャする。
提案したSIMVC-SAの時間と空間の複雑さはサンプル数と線形に相関していることが証明された。
論文 参考訳(メタデータ) (2023-08-31T08:30:26Z) - Deep Multi-View Subspace Clustering with Anchor Graph [11.291831842959926]
アンカーグラフ(DMCAG)を用いた深層多視点サブスペースクラスタリング手法を提案する。
DMCAGは各ビューの埋め込み機能を独立して学習し、サブスペース表現を得るために使用される。
本手法は他の最先端手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2023-05-11T16:17:43Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Self-supervised Image Clustering from Multiple Incomplete Views via
Constrastive Complementary Generation [5.314364096882052]
我々は、CIMIC-GAN(Generative Adversarial Networks)を用いたコントラスト不完全なマルチビュー画像クラスタリングを提案する。
完全および不完全データの自己エンコーディング表現を二重コントラスト学習に組み込んで学習一貫性を実現する。
テキストカラーブラックフールを用いた実験により、CIMIC-GANは最先端の非完全なマルチビュークラスタリング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-24T05:08:34Z) - Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。
特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。
いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文 参考訳(メタデータ) (2022-08-25T05:47:39Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Unsupervised Visual Representation Learning by Online Constrained
K-Means [44.38989920488318]
クラスタ識別は、教師なし表現学習の効果的な前提課題である。
オンラインtextbfConstrained textbfK-mtextbfeans (textbfCoKe) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。
当社のオンライン割当て方式は,グローバルな最適化に近づくための理論的保証を持っている。
論文 参考訳(メタデータ) (2021-05-24T20:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。