論文の概要: Fusing Cross-modal and Uni-modal Representations: A Kronecker Product Approach
- arxiv url: http://arxiv.org/abs/2506.08645v1
- Date: Tue, 10 Jun 2025 09:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.264491
- Title: Fusing Cross-modal and Uni-modal Representations: A Kronecker Product Approach
- Title(参考訳): Fusing Cross-modal and Uni-modal Representations: A Kronecker Product Approach
- Authors: Youqi Wu, Jingwei Zhang, Farzan Farnia,
- Abstract要約: クロスモーダル埋め込みは、モダリティ間の表現の整合化において有望な結果を得た。
一方、単一モダリティ埋め込みはドメインに優れるが、クロスモダリティアライメント能力は欠如している。
単一モードの埋め込みとクロスモーダルな埋め込みを統合する手法RP-KrossFuseを提案する。
- 参考スコア(独自算出の注目度): 11.303774406059368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal embeddings, such as CLIP, BLIP and their variants, have achieved promising results in aligning representations across modalities. However, these embeddings could underperform compared to state-of-the-art single-modality embeddings on modality-specific tasks. On the other hand, single-modality embeddings excel in their domains but lack cross-modal alignment capabilities. In this work, we focus on the problem of unifying cross-modality and single-modality embeddings to achieve the performance of modality-expert embedding within individual modalities while preserving cross-modal alignment. To this end, we propose RP-KrossFuse, a method that leverages a random projection-based Kronecker product to integrate cross-modal embeddings with single-modality embeddings. RP-KrossFuse aims to fuse the sample-pairwise similarity scores of the fused embeddings and operates efficiently in a specified kernel space and supports scalable implementations via random Fourier features for shift-invariant kernels such as the Gaussian kernel. We demonstrate the effectiveness of RP-KrossFuse through several numerical experiments, combining CLIP embeddings with uni-modal image and text embeddings. Our numerical results indicate that RP-KrossFuse achieves competitive modality-specific performance while retaining cross-modal alignment, bridging the gap between cross-modal and single-modality embeddings.
- Abstract(参考訳): CLIP、BLIP、およびそれらの変種のようなモダリティ間の埋め込みは、モダリティ間の表現の整合において有望な結果を得た。
しかし、これらの埋め込みは、モダリティ固有のタスクに対する最先端の単一モダリティ埋め込みよりも性能が劣る可能性がある。
一方、単一モダリティ埋め込みはドメインに優れるが、クロスモダリティアライメント能力は欠如している。
本研究では, クロスモーダルアライメントを保ちつつ, 個別モダリティ内におけるモダリティ-エキスパート埋め込みの性能を達成するために, クロスモダリティと単一モダリティの埋め込みを統一する問題に焦点をあてる。
この目的のために,ランダムなプロジェクションベースのKronecker積を利用して,クロスモーダルな埋め込みと単一モーダルな埋め込みを統合するRP-KrossFuseを提案する。
RP-KrossFuseは、融合した埋め込みのサンプルとペアの類似点を融合し、特定のカーネル空間で効率的に動作し、ガウスカーネルのようなシフト不変カーネルのためのランダムなフーリエ機能を通じてスケーラブルな実装をサポートすることを目的としている。
CLIP埋め込みとユニモーダル画像とテキスト埋め込みを組み合わせた数値実験により,RP-KrossFuseの有効性を実証した。
数値計算の結果,RP-KrossFuseはクロスモーダルアライメントを維持しつつ,クロスモーダルと単一モーダル埋め込みのギャップを埋めながら,競争力のあるモーダル比性能を実現することが示唆された。
関連論文リスト
- BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [7.947217265041953]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - From Cross-Modal to Mixed-Modal Visible-Infrared Re-Identification [11.324518300593983]
現行のVI-ReID法はモダリティの整合性に重点を置いているが、実世界の応用にはVとIの両方の画像を含む混合ギャラリーが含まれることが多い。
これは、同じモダリティのギャラリー画像はドメインギャップが低いが、異なるIDに対応するためである。
本稿では,両モダリティのデータを含む新たな混合モードReID設定を提案する。
論文 参考訳(メタデータ) (2025-01-23T01:28:05Z) - AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment [37.213291617683325]
クロスモーダルアライメントはマルチモーダル表現融合に不可欠である。
マルチモーダル核融合の効率的かつ効率的な方法であるAlignMambaを提案する。
完全かつ不完全なマルチモーダル核融合タスクの実験は,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-12-01T14:47:41Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。