論文の概要: When Kernels Multiply, Clusters Unify: Fusing Embeddings with the Kronecker Product
- arxiv url: http://arxiv.org/abs/2506.08645v2
- Date: Thu, 30 Oct 2025 17:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.35151
- Title: When Kernels Multiply, Clusters Unify: Fusing Embeddings with the Kronecker Product
- Title(参考訳): カーネルが乗算するとクラスタが統一 - Kronecker製品に埋め込みを組み込む
- Authors: Youqi Wu, Jingwei Zhang, Farzan Farnia,
- Abstract要約: 最先端の埋め込みは、しばしば異なるが相補的な差別的特徴を捉えている。
本稿では,カーネル乗算による補完表現を融合する原理的手法を提案する。
我々は、ランダムなプロジェクションを利用して効率的な近似を行うスケーラブルなRP-KrossFuseを開発した。
- 参考スコア(独自算出の注目度): 21.018675431494838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art embeddings often capture distinct yet complementary discriminative features: For instance, one image embedding model may excel at distinguishing fine-grained textures, while another focuses on object-level structure. Motivated by this observation, we propose a principled approach to fuse such complementary representations through kernel multiplication. Multiplying the kernel similarity functions of two embeddings allows their discriminative structures to interact, producing a fused representation whose kernel encodes the union of the clusters identified by each parent embedding. This formulation also provides a natural way to construct joint kernels for paired multi-modal data (e.g., image-text tuples), where the product of modality-specific kernels inherits structure from both domains. We highlight that this kernel product is mathematically realized via the Kronecker product of the embedding feature maps, yielding our proposed KrossFuse framework for embedding fusion. To address the computational cost of the resulting high-dimensional Kronecker space, we further develop RP-KrossFuse, a scalable variant that leverages random projections for efficient approximation. As a key application, we use this framework to bridge the performance gap between cross-modal embeddings (e.g., CLIP, BLIP) and unimodal experts (e.g., DINOv2, E5). Experiments show that RP-KrossFuse effectively integrates these models, enhancing modality-specific performance while preserving cross-modal alignment. The project code is available at https://github.com/yokiwuuu/KrossFuse.
- Abstract(参考訳): 例えば、ある画像埋め込みモデルはきめ細かいテクスチャの区別に優れ、別の画像埋め込みモデルはオブジェクトレベルの構造に重点を置いている。
そこで本研究では,カーネル乗算による補完表現を融合する原理的手法を提案する。
2つの埋め込みのカーネル類似性関数を乗じると、それらの識別的構造が相互作用し、カーネルがそれぞれの親埋め込みによって識別されたクラスタの結合を符号化する融合表現を生成する。
この定式化はまた、ペア化されたマルチモーダルデータ(例えば、画像-テキストタプル)のためのジョイントカーネルを構築する自然な方法を提供し、モダリティ固有のカーネルの積が両方のドメインから構造を継承する。
我々は、このカーネル製品が埋め込み特徴写像のKronecker製品を介して数学的に実現され、埋め込み融合のためのKrossFuseフレームワークが提案されていることを強調した。
結果の高次元Kronecker空間の計算コストに対処するため、効率的な近似のためにランダムなプロジェクションを利用するスケーラブルな変種RP-KrossFuseを開発した。
重要なアプリケーションとして、私たちはこのフレームワークを使用して、クロスモーダルな埋め込み(例えば、CLIP、BLIP)と非モーダルの専門家(例えば、DINOv2、E5)の間のパフォーマンスギャップを埋めています。
実験により、RP-KrossFuseはこれらのモデルを効果的に統合し、モーダルアライメントを保ちながらモダリティ固有の性能を向上させることが示された。
プロジェクトのコードはhttps://github.com/yokiwuuu/KrossFuse.comで公開されている。
関連論文リスト
- Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - CM$^3$: Calibrating Multimodal Recommendation [10.09576389984858]
本研究では,マルチモーダルレコメンダシステムのコンテキストにおけるアライメントと均一性について再検討する。
同様のマルチモーダル属性を持つ項目が超球面多様体内の近位表現に収束するよりニュアンスなアプローチを提案する。
また、任意の数のモジュラリティを統合するために設計された球面ブエジエ法を導入し、その結果の融合した特徴が同じ超球面多様体に制約されることを保証する。
論文 参考訳(メタデータ) (2025-08-02T06:44:59Z) - Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [7.947217265041953]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - From Cross-Modal to Mixed-Modal Visible-Infrared Re-Identification [11.324518300593983]
現行のVI-ReID法はモダリティの整合性に重点を置いているが、実世界の応用にはVとIの両方の画像を含む混合ギャラリーが含まれることが多い。
これは、同じモダリティのギャラリー画像はドメインギャップが低いが、異なるIDに対応するためである。
本稿では,両モダリティのデータを含む新たな混合モードReID設定を提案する。
論文 参考訳(メタデータ) (2025-01-23T01:28:05Z) - AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment [37.213291617683325]
クロスモーダルアライメントはマルチモーダル表現融合に不可欠である。
マルチモーダル核融合の効率的かつ効率的な方法であるAlignMambaを提案する。
完全かつ不完全なマルチモーダル核融合タスクの実験は,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-12-01T14:47:41Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。