論文の概要: Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2603.05566v1
- Date: Thu, 05 Mar 2026 13:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.197026
- Title: Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment
- Title(参考訳): 真の意味論の整合性: クロスモーダルアライメントのための制約付きデカップリングと分散サンプリング
- Authors: Xiang Ma, Lexin Fang, Litian Xu, Caiming Zhang,
- Abstract要約: クロスモーダルアライメントは、視覚と言語間のセマンティック一貫性を達成することを目的としたマルチモーダル学習において重要な課題である。
伝統的なアルゴリズムは意味的一貫性を達成するために埋め込み一貫性を追求し、埋め込みに存在する非意味的な情報を無視する。
我々は textbfConstrained textbfDecoupling and textbfSampling (CDDS) による新しいクロスモーダルアライメントアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 21.887969353050664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal alignment is a crucial task in multimodal learning aimed at achieving semantic consistency between vision and language. This requires that image-text pairs exhibit similar semantics. Traditional algorithms pursue embedding consistency to achieve semantic consistency, ignoring the non-semantic information present in the embedding. An intuitive approach is to decouple the embeddings into semantic and modality components, aligning only the semantic component. However, this introduces two main challenges: (1) There is no established standard for distinguishing semantic and modal information. (2) The modality gap can cause semantic alignment deviation or information loss. To align the true semantics, we propose a novel cross-modal alignment algorithm via \textbf{C}onstrained \textbf{D}ecoupling and \textbf{D}istribution \textbf{S}ampling (CDDS). Specifically, (1) A dual-path UNet is introduced to adaptively decouple the embeddings, applying multiple constraints to ensure effective separation. (2) A distribution sampling method is proposed to bridge the modality gap, ensuring the rationality of the alignment process. Extensive experiments on various benchmarks and model backbones demonstrate the superiority of CDDS, outperforming state-of-the-art methods by 6.6\% to 14.2\%.
- Abstract(参考訳): クロスモーダルアライメントは、視覚と言語間のセマンティック一貫性を達成することを目的としたマルチモーダル学習において重要な課題である。
これは、画像とテキストのペアが同様の意味を持つ必要がある。
伝統的なアルゴリズムは意味的一貫性を達成するために埋め込み一貫性を追求し、埋め込みに存在する非意味的な情報を無視する。
直感的なアプローチは、セマンティックコンポーネントとモダリティコンポーネントに埋め込みを分離し、セマンティックコンポーネントのみを整列させることである。
しかし,本研究では,(1)意味情報とモーダル情報を区別するための標準が確立されていないこと,という2つの課題を提起する。
2) モダリティギャップは意味的アライメントのずれや情報損失を引き起こす可能性がある。
真の意味論を整合させるため,本研究では,<textbf{C}ontrained \textbf{D}ecoupling と \textbf{D}istribution \textbf{S}ampling (CDDS) を用いて,クロスモーダルアライメントアルゴリズムを提案する。
具体的には、(1) 埋め込みを適応的に分離するためにデュアルパスUNetを導入し、効率的な分離を確保するために複数の制約を適用した。
2) 配向過程の合理性を確保するため, 配向ギャップを橋渡しする分布サンプリング法を提案する。
様々なベンチマークやモデルバックボーンに関する大規模な実験は、CDDSの優位性を示し、最先端の手法を6.6\%から14.2\%に上回った。
関連論文リスト
- Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition [41.77490816513839]
ゼロショットスケルトン動作認識のための新しい手法を,$texttt$textbfFlora$$として提案する。
具体的には、方向対応の地域意味論と相互整合性目標を取り入れたテキスト意味論を実践する。
3つのベンチマークデータセットによる実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-11-12T14:54:53Z) - Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval [54.90229711181207]
TIPR (Text-to-Image Person Retrieval) は、与えられたテキストクエリに基づいて、最も関連性の高い人物画像を取得することを目的としている。
TIPRの鍵となる課題は、テキストと視覚のモダリティの効果的なアライメントを達成することである。
FMFA, クロスモーダルフルモーデファインファインファインファインアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T07:12:05Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - On the Value of Cross-Modal Misalignment in Multimodal Representation Learning [37.75808662051886]
マルチモーダル表現学習は、モダリティ間でキューを整列させることにより、強力な表現を学習することを目的としている。
最近の研究により、現実世界のデータセットは、しばしばモダクティブなミスアライメントを示すことが明らかになっている。
論文 参考訳(メタデータ) (2025-04-14T11:54:19Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Semantic Connectivity-Driven Pseudo-labeling for Cross-domain
Segmentation [89.41179071022121]
自己学習はドメイン間セマンティックセグメンテーションにおいて一般的なアプローチである。
本稿ではセマンティック・コネクティビティ駆動の擬似ラベル方式を提案する。
このアプローチは、接続レベルにおいて擬似ラベルを定式化し、構造的および低雑音のセマンティクスの学習を容易にする。
論文 参考訳(メタデータ) (2023-12-11T12:29:51Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。