論文の概要: Semantic Compression via Multimodal Representation Learning
- arxiv url: http://arxiv.org/abs/2509.24431v1
- Date: Mon, 29 Sep 2025 08:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.852857
- Title: Semantic Compression via Multimodal Representation Learning
- Title(参考訳): 多モーダル表現学習による意味圧縮
- Authors: Eleonora Grassucci, Giordano Cicchetti, Aurelio Uncini, Danilo Comminiello,
- Abstract要約: マルチモーダル表現学習は、共有潜在空間における様々なモダリティを整列させる埋め込みを生成する。
鍵となるオープンな問題は、セマンティック圧縮を実現する方法であり、マルチモーダル埋め込みのメモリフットプリントを減らすことである。
学習後セマンティック圧縮の実現可能性とモダリティギャップの低減との間には,強い関係があることを実証する。
- 参考スコア(独自算出の注目度): 18.229658255981505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal representation learning produces high-dimensional embeddings that align diverse modalities in a shared latent space. While this enables strong generalization, it also introduces scalability challenges, both in terms of storage and downstream processing. A key open problem is how to achieve semantic compression, reducing the memory footprint of multimodal embeddings while preserving their ability to represent shared semantic content across modalities. In this paper, we prove a strong connection between reducing the modality gap, which is the residual separation of embeddings from different modalities, and the feasibility of post-training semantic compression. When the gap is sufficiently reduced, embeddings from different modalities but expressing the same semantics share a common portion of the space. Therefore, their centroid is a faithful representation of such a semantic concept. This enables replacing multiple embeddings with a single centroid, yielding significant memory savings. We propose a novel approach for semantic compression grounded on the latter intuition, operating directly on pretrained encoders. We demonstrate its effectiveness across diverse large-scale multimodal downstream tasks. Our results highlight that modality alignment is a key enabler for semantic compression, showing that the proposed approach achieves significant compression without sacrificing performance.
- Abstract(参考訳): マルチモーダル表現学習は、共有潜在空間における様々なモダリティを整列する高次元埋め込みを生成する。
これは強力な一般化を可能にするが、ストレージとダウンストリーム処理の両面でスケーラビリティの課題も導入している。
主要なオープンな問題は、セマンティック圧縮を実現する方法であり、マルチモーダル埋め込みのメモリフットプリントを減らすと同時に、モダリティ間で共有セマンティックコンテンツを表現できることである。
本稿では,異なるモダリティから埋め込みを分離した残差であるモダリティギャップの低減と,学習後のセマンティック圧縮の実現可能性との強い関係性を示す。
ギャップが十分に小さくなると、異なるモジュラリティから埋め込むが、同じ意味論を表現することは空間の共通部分を共有する。
したがって、その中心体はそのような意味概念の忠実な表現である。
これにより、複数の埋め込みを1セントロイドに置き換えることができ、メモリの大幅な節約が可能になる。
本稿では,事前学習したエンコーダを直接操作する,後者の直観に基づく意味的圧縮手法を提案する。
様々な大規模マルチモーダル下流タスクにまたがる実効性を示す。
提案手法は,提案手法が性能を犠牲にすることなく,大幅な圧縮を実現することを示す。
関連論文リスト
- Compression Beyond Pixels: Semantic Compression with Multimodal Foundation Models [3.63996665798445]
コントラッシブ言語画像事前学習(CLIP)モデルに基づく新しい意味圧縮手法を提案する。
提案手法は,ベンチマークデータセット間のセマンティックな整合性を維持し,平均ビットレートを1ピクセルあたり約2-3* 10(-3) ビットとする。
顕著なことに、極端な圧縮の下でも、提案手法は多様なデータ分布と下流タスクにまたがるゼロショットロバスト性を示す。
論文 参考訳(メタデータ) (2025-09-07T04:49:25Z) - SPANER: Shared Prompt Aligner for Multimodal Semantic Representation [0.0]
Shared Prompt AligNER (SPANER) は、様々なモダリティからの入力を統一的なセマンティック空間に埋め込むために設計された、モダリティに依存しないPEFTフレームワークである。
SPANERは、概念的なアンカーとして機能する共有プロンプト機構を採用しており、意味的に関連するインスタンスがモダリティに関係なく空間的に収束することを可能にする。
本結果は,適応重みを調整するのではなく,組込み構造を整列させることが,スケーラブルなマルチモーダル学習において重要であることを示す。
論文 参考訳(メタデータ) (2025-08-18T22:20:42Z) - Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T03:20:44Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [6.93254775445168]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z) - Dynamic Feature Regularized Loss for Weakly Supervised Semantic
Segmentation [37.43674181562307]
動的に更新される浅度と深度の両方の機能を利用する新たな正規化損失を提案する。
提案手法は,新しい最先端性能を実現し,他の手法よりも6%以上のmIoU増加率で優れたマージンを達成している。
論文 参考訳(メタデータ) (2021-08-03T05:11:00Z) - DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep
Learning [79.89085533866071]
本稿では,スパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。
DeepReduceはテンソルを2つの集合、値とインデックスに分解し、これらの集合の独立圧縮と結合圧縮を可能にする。
大規模実モデルを用いた実験により,DeepReduceはデータ転送を少なくし,既存の手法よりも計算オーバーヘッドを小さくすることを示した。
論文 参考訳(メタデータ) (2021-02-05T11:31:24Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。