論文の概要: GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2505.13306v1
- Date: Mon, 19 May 2025 16:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.728321
- Title: GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval
- Title(参考訳): GMMによるFew-Shotクロスモーダル検索のための包括的特徴抽出と相対距離保存
- Authors: Chengsong Sun, Weiping Li, Xiang Li, Yuankun Liu, Lianlei Shan,
- Abstract要約: クロスモーダル検索は、限られたトレーニングサンプルを用いたクロスモーダル表現の学習に焦点を当てている。
既存の手法では、数発のクロスモーダルデータのマルチピーク分布を適切にモデル化できない場合が多い。
画像特徴量とテキスト特徴量との相対的距離を制約するクロスモーダルなセマンティックアライメントのための新しい戦略を導入する。
- 参考スコア(独自算出の注目度): 13.928213494843744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot cross-modal retrieval focuses on learning cross-modal representations with limited training samples, enabling the model to handle unseen classes during inference. Unlike traditional cross-modal retrieval tasks, which assume that both training and testing data share the same class distribution, few-shot retrieval involves data with sparse representations across modalities. Existing methods often fail to adequately model the multi-peak distribution of few-shot cross-modal data, resulting in two main biases in the latent semantic space: intra-modal bias, where sparse samples fail to capture intra-class diversity, and inter-modal bias, where misalignments between image and text distributions exacerbate the semantic gap. These biases hinder retrieval accuracy. To address these issues, we propose a novel method, GCRDP, for few-shot cross-modal retrieval. This approach effectively captures the complex multi-peak distribution of data using a Gaussian Mixture Model (GMM) and incorporates a multi-positive sample contrastive learning mechanism for comprehensive feature modeling. Additionally, we introduce a new strategy for cross-modal semantic alignment, which constrains the relative distances between image and text feature distributions, thereby improving the accuracy of cross-modal representations. We validate our approach through extensive experiments on four benchmark datasets, demonstrating superior performance over six state-of-the-art methods.
- Abstract(参考訳): クロスモーダル検索は、限られたトレーニングサンプルでクロスモーダル表現を学習することに焦点を当てており、モデルが推論中に目に見えないクラスを扱えるようにしている。
従来のクロスモーダル検索タスクとは異なり、トレーニングデータとテストデータの両方が同じクラス分布を共有していると仮定する。
既存の手法では、少数ショットのクロスモーダルデータのマルチピーク分布を適切にモデル化することができないことが多く、結果として潜在意味空間における2つの主要なバイアスとなる: スパースサンプルがクラス内の多様性を捉えるのに失敗するモード内バイアスと、画像とテキストの分布の不一致がセマンティックギャップを悪化させるモード間バイアスである。
これらのバイアスは、精度を損なう。
これらの問題に対処するために,数発のクロスモーダル検索のための新しい手法であるGCRDPを提案する。
このアプローチはガウス混合モデル(GMM)を用いてデータの複雑なマルチピーク分布を効果的に捉え、包括的特徴モデリングのための多陽性サンプルコントラスト学習機構を組み込む。
さらに,画像特徴量とテキスト特徴量との相対的距離を制約するクロスモーダルなセマンティックアライメントの新たな戦略を導入することにより,クロスモーダルな表現の精度を向上させる。
提案手法は4つのベンチマークデータセットの広範な実験を通じて検証し、6つの最先端手法よりも優れた性能を示す。
関連論文リスト
- Leveraging Text-to-Image Generation for Handling Spurious Correlation [24.940576844328408]
経験的リスク最小化(ERM)でトレーニングされたディープニューラルネットワークは、トレーニングとテストの両方が同じドメインからやってくると、うまく機能する。
ERMモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する急激な相関に頼り、それらの特徴が存在しないと予測できない。
本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルを用いたトレーニングサンプルの生成手法を提案する。
論文 参考訳(メタデータ) (2025-03-21T15:28:22Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。
既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。
本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文 参考訳(メタデータ) (2024-07-05T12:09:33Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Weakly supervised segmentation with cross-modality equivariant
constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。
本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。
私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文 参考訳(メタデータ) (2021-04-06T13:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。