論文の概要: Multi-modal Dynamic Proxy Learning for Personalized Multiple Clustering
- arxiv url: http://arxiv.org/abs/2511.07274v1
- Date: Mon, 10 Nov 2025 16:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.363168
- Title: Multi-modal Dynamic Proxy Learning for Personalized Multiple Clustering
- Title(参考訳): パーソナライズされた複数クラスタリングのためのマルチモーダル動的プロキシ学習
- Authors: Jinfeng Xu, Zheyu Chen, Shuo Yang, Jinze Li, Ziyue Peng, Zewei Liu, Hewei Wang, Jiayi Zhang, Edith C. H. Ngai,
- Abstract要約: 複数のクラスタリングは、さまざまな視点から様々な潜在構造を発見することを目的としている。
既存手法は,ユーザの関心を損なうことなく,網羅的なクラスタリングを生成する。
本稿では,新しいマルチモーダル動的プロキシ学習フレームワークであるMulti-D Proxyを提案する。
- 参考スコア(独自算出の注目度): 19.73004884573164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple clustering aims to discover diverse latent structures from different perspectives, yet existing methods generate exhaustive clusterings without discerning user interest, necessitating laborious manual screening. Current multi-modal solutions suffer from static semantic rigidity: predefined candidate words fail to adapt to dataset-specific concepts, and fixed fusion strategies ignore evolving feature interactions. To overcome these limitations, we propose Multi-DProxy, a novel multi-modal dynamic proxy learning framework that leverages cross-modal alignment through learnable textual proxies. Multi-DProxy introduces 1) gated cross-modal fusion that synthesizes discriminative joint representations by adaptively modeling feature interactions. 2) dual-constraint proxy optimization where user interest constraints enforce semantic consistency with domain concepts while concept constraints employ hard example mining to enhance cluster discrimination. 3) dynamic candidate management that refines textual proxies through iterative clustering feedback. Therefore, Multi-DProxy not only effectively captures a user's interest through proxies but also enables the identification of relevant clusterings with greater precision. Extensive experiments demonstrate state-of-the-art performance with significant improvements over existing methods across a broad set of multi-clustering benchmarks.
- Abstract(参考訳): 複数のクラスタリングは、異なる視点から多様な潜伏構造を発見することを目的としているが、既存のメソッドは、ユーザの関心を識別せずに徹底的なクラスタリングを生成し、面倒な手作業によるスクリーニングを必要としている。
現在のマルチモーダルソリューションは静的な意味的剛性に悩まされており、事前定義された候補語はデータセット固有の概念に適応できず、固定融合戦略は進化する特徴的相互作用を無視している。
これらの制約を克服するために,学習可能なテキストプロキシによるクロスモーダルアライメントを活用する,新しいマルチモーダル動的プロキシ学習フレームワークであるMulti-DProxyを提案する。
Multi-DProxy 導入
1) 特徴的相互作用を適応的にモデル化し, 識別的関節表現を合成するゲートクロスモーダル融合。
2) ユーザ関心の制約がドメイン概念のセマンティック一貫性を強制する一方,概念の制約はクラスタ識別を強化するためにハードサンプルマイニングを使用する。
3)反復的なクラスタリングフィードバックによってテキストプロキシを洗練する動的候補管理。
したがって、マルチDProxyは、プロキシを通じてユーザの興味を効果的に捉えるだけでなく、より正確なクラスタリングの識別を可能にする。
大規模な実験は、幅広いマルチクラスタリングベンチマークで既存のメソッドよりも大幅に改善された最先端のパフォーマンスを示す。
関連論文リスト
- UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation [16.81485354427923]
本稿では,新しいマルチモーダルトークンをトレーニングする2段階フレームワークであるMMQを提案する。
MMQは多モードのシナジー、特異性、行動適応を統一し、生成的検索と識別的ランキングタスクの両方にスケーラブルで汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-21T06:15:49Z) - Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval [0.5999777817331317]
モダリティの異なるコンテンツ間の多様な関連性のため、モダリティ間の画像テキスト検索は困難である。
従来の手法では、各サンプルのセマンティクスを表現するために、単一ベクトルの埋め込みを学ぶ。
各サンプルを複数の埋め込みで表現するセットベースのアプローチは、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-06-26T17:55:34Z) - MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification [2.7936465461948945]
Multimodal Collaborative Fusion Network (MCFNet) はきめ細かい分類のために設計された。
MCFNetアーキテクチャには、モーダル内特徴表現を改善する正規化統合融合モジュールが組み込まれている。
マルチモーダル決定分類モジュールは、モーダル間相関と非モーダル識別機能を利用する。
論文 参考訳(メタデータ) (2025-05-29T11:42:57Z) - Multi Activity Sequence Alignment via Implicit Clustering [50.3168866743067]
暗黙のクラスタリングによるシーケンスアライメントによる制約を克服する新しいフレームワークを提案する。
具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。
実験の結果,提案手法は最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2025-03-16T14:28:46Z) - Customized Multiple Clustering via Multi-Modal Subspace Proxy Learning [8.447067012487866]
我々は、マルチモーダルなサブスペースプロキシ学習フレームワークを組み込んだ、新しいエンドツーエンドのマルチクラスタリングアプローチであるMulti-Subを紹介する。
我々の手法は、視覚的多重クラスタリングタスクにおいて、幅広いデータセットの集合において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-06T15:14:27Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Multi-Modal Proxy Learning Towards Personalized Visual Multiple Clustering [8.447067012487866]
マルチMaPは,マルチモーダルなプロキシ学習プロセスを用いた新しい手法である。
キーワードを通じてユーザの関心をキャプチャすると同時に、関連するクラスタリングの特定を容易にする。
実験の結果,Multi-MaPは全ベンチマークのマルチクラスタ・ビジョンタスクにおいて常に最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-24T05:20:42Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。