論文の概要: Semantic-Cohesive Knowledge Distillation for Deep Cross-modal Hashing
- arxiv url: http://arxiv.org/abs/2510.09664v1
- Date: Tue, 07 Oct 2025 18:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.534822
- Title: Semantic-Cohesive Knowledge Distillation for Deep Cross-modal Hashing
- Title(参考訳): ディープクロスモーダルハッシュのための意味結合型知識蒸留法
- Authors: Changchang Sun, Vickie Chen, Yan Yan,
- Abstract要約: 本稿では,SODAと呼ばれる深部断熱処理のための新しい意味結合型知識蒸留法を提案する。
画像モダリティとラベルモダリティ間のクロスモーダルな意味的特性を効果的に蒸留し、画像モダリティのためのよくマッピングされたハミング空間を学習するために、クロスモーダルな教師ネットワークが考案された。
ある意味では、このようなハミング空間は、学生間のネットワークの学習をガイドし、画像とテキストのモダリティのセマンティックな類似性を包括的に保存する、一種の事前知識と見なすことができる。
- 参考スコア(独自算出の注目度): 10.129088110563345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep supervised cross-modal hashing methods have achieve compelling success by learning semantic information in a self-supervised way. However, they still suffer from the key limitation that the multi-label semantic extraction process fail to explicitly interact with raw multimodal data, making the learned representation-level semantic information not compatible with the heterogeneous multimodal data and hindering the performance of bridging modality gap. To address this limitation, in this paper, we propose a novel semantic cohesive knowledge distillation scheme for deep cross-modal hashing, dubbed as SODA. Specifically, the multi-label information is introduced as a new textual modality and reformulated as a set of ground-truth label prompt, depicting the semantics presented in the image like the text modality. Then, a cross-modal teacher network is devised to effectively distill cross-modal semantic characteristics between image and label modalities and thus learn a well-mapped Hamming space for image modality. In a sense, such Hamming space can be regarded as a kind of prior knowledge to guide the learning of cross-modal student network and comprehensively preserve the semantic similarities between image and text modality. Extensive experiments on two benchmark datasets demonstrate the superiority of our model over the state-of-the-art methods.
- Abstract(参考訳): 近年,自己教師型手法で意味情報を学習することで,深い教師付きクロスモーダルハッシュ法が説得力のある成功を収めている。
しかし,マルチラベルのセマンティック抽出プロセスが生のマルチモーダルデータと明示的に相互作用せず,不均一なマルチモーダルデータと互換性のない表現レベルのセマンティック情報が混在し,ブリッジングモダリティギャップの性能を損なうという重要な制約に悩まされている。
本稿では,この制限に対処するため,SODAと呼ばれる深部断熱処理のための新しい意味結合型知識蒸留法を提案する。
具体的には、マルチラベル情報は、新しいテキストモーダルとして導入され、テキストモーダルのような画像に提示される意味を描写した、一連の基幹ラベルプロンプトとして再構成される。
そして、画像とラベルのモダリティ間の相互意味性を効果的に蒸留し、画像のモダリティをうまくマッピングしたハミング空間を学習するために、クロスモーダル教師ネットワークを考案した。
ある意味では、このようなハミング空間は、学生間のネットワークの学習をガイドし、画像とテキストのモダリティのセマンティックな類似性を包括的に保存する、一種の事前知識と見なすことができる。
2つのベンチマークデータセットに対する大規模な実験は、最先端の手法よりもモデルの方が優れていることを示す。
関連論文リスト
- A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations [15.703292627605304]
コントラスト学習に基づくクロスモーダルなうわさ検出手法を提案する。
スケールアウェア・フュージョンネットワークは,高精細なマルチスケール画像機能とグローバルテキスト機能を統合するように設計されている。
実験結果から,噂検出における既存の最先端手法よりも大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-08-15T01:13:50Z) - ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation [36.43428388918294]
ペア化されたテキストイメージデータのWebスケールトレーニングは、ますますマルチモーダルな学習の中心になりつつある。
標準的なデータフィルタリングアプローチでは、ミスマッチしたテキストイメージペアを削除できない。
画像参照なしで字幕テキストを評価し,その具体性を計測する新しい指標である画像キャプション具体性を提案する。
論文 参考訳(メタデータ) (2024-03-02T20:36:10Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文 参考訳(メタデータ) (2023-06-28T06:08:20Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。