論文の概要: Lightweight Contrastive Distilled Hashing for Online Cross-modal Retrieval
- arxiv url: http://arxiv.org/abs/2502.19751v1
- Date: Thu, 27 Feb 2025 04:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:43.818512
- Title: Lightweight Contrastive Distilled Hashing for Online Cross-modal Retrieval
- Title(参考訳): オンラインクロスモーダル検索のための軽量コントラスト蒸留ハッシュ
- Authors: Jiaxing Li, Lin Jiang, Zeqi Ma, Kaihang Jiang, Xiaozhao Fang, Jie Wen,
- Abstract要約: 本稿では, クロスモーダル検索のための軽量コントラスト蒸留ハッシュ (LCDH) を提案する。
教師ネットワークにおいて、LCDHはまず、対照的な言語イメージによる事前学習により、クロスモーダルな特徴を抽出する。
学生ネットワークにおいて、LCDHは軽量モデルにより視覚的特徴とテキスト的特徴を抽出する。
- 参考スコア(独自算出の注目度): 11.81047720977634
- License:
- Abstract: Deep online cross-modal hashing has gained much attention from researchers recently, as its promising applications with low storage requirement, fast retrieval efficiency and cross modality adaptive, etc. However, there still exists some technical hurdles that hinder its applications, e.g., 1) how to extract the coexistent semantic relevance of cross-modal data, 2) how to achieve competitive performance when handling the real time data streams, 3) how to transfer the knowledge learned from offline to online training in a lightweight manner. To address these problems, this paper proposes a lightweight contrastive distilled hashing (LCDH) for cross-modal retrieval, by innovatively bridging the offline and online cross-modal hashing by similarity matrix approximation in a knowledge distillation framework. Specifically, in the teacher network, LCDH first extracts the cross-modal features by the contrastive language-image pre-training (CLIP), which are further fed into an attention module for representation enhancement after feature fusion. Then, the output of the attention module is fed into a FC layer to obtain hash codes for aligning the sizes of similarity matrices for online and offline training. In the student network, LCDH extracts the visual and textual features by lightweight models, and then the features are fed into a FC layer to generate binary codes. Finally, by approximating the similarity matrices, the performance of online hashing in the lightweight student network can be enhanced by the supervision of coexistent semantic relevance that is distilled from the teacher network. Experimental results on three widely used datasets demonstrate that LCDH outperforms some state-of-the-art methods.
- Abstract(参考訳): オンラインのクロスモーダルハッシュは、ストレージ要件の低さ、高速な検索効率、クロスモーダル適応など、有望なアプリケーションである。
しかし、その応用を妨げる技術的なハードルは、例えば、1)クロスモーダルデータの共存意味関係を抽出する方法がある。
2)リアルタイムデータストリームを扱う際の競合的なパフォーマンスを実現する方法。
3)オフラインからオンライントレーニングに学んだ知識を軽量に移行する方法。
このような問題に対処するため,本研究では, 知識蒸留フレームワークにおける類似度行列近似によるオフラインおよびオンラインのクロスモーダルハッシュを革新的にブリッジすることで, クロスモーダル検索のための軽量なコントラスト蒸留ハッシュ(LCDH)を提案する。
具体的には、教師ネットワークにおいて、LCDHは、まずコントラッシブ言語画像事前学習(CLIP)によってクロスモーダルな特徴を抽出し、特徴融合後の表現強調のための注意モジュールにさらに供給する。
そして、アテンションモジュールの出力をFC層に供給し、オンラインおよびオフライントレーニング用の類似度行列のサイズを整列するハッシュコードを得る。
学生ネットワークでは、LCDHは軽量モデルにより視覚的特徴とテキスト的特徴を抽出し、その特徴をFC層に供給してバイナリコードを生成する。
最後に、類似度行列を近似することにより、教師ネットワークから蒸留した共存意味関係の監督により、軽量学生ネットワークにおけるオンラインハッシュの性能を向上させることができる。
3つの広く使われているデータセットの実験結果から、LCDHは最先端の手法よりも優れていることが示された。
関連論文リスト
- Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval [5.965791109321719]
2D画像と3Dポイントクラウドデータの相互ハッシュ化は、現実世界の検索システムにおいてますます懸念される。
画像とポイントクラウドデータ間の検索のために,コントラッシブマスク付きオートエンコーダを用いた自己教師型ハッシュ(CMAH)を提案する。
論文 参考訳(メタデータ) (2024-08-11T07:03:21Z) - CoopHash: Cooperative Learning of Multipurpose Descriptor and Contrastive Pair Generator via Variational MCMC Teaching for Supervised Image Hashing [42.67510119856105]
GAN(Generative Adversarial Networks)のような生成モデルは、画像ハッシュモデルで合成データを生成することができる。
GANは訓練が難しいため、ハッシュアプローチが生成モデルとハッシュ関数を共同で訓練するのを防ぐことができる。
本稿では,エネルギーをベースとした協調学習に基づく新しい協調ハッシュネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-09T15:42:36Z) - Online Knowledge Distillation via Mutual Contrastive Learning for Visual
Recognition [27.326420185846327]
オンライン知識蒸留(KD)のための相互コントラスト学習(MCL)フレームワークを提案する。
我々のMCLは、クロスネットワーク埋め込み情報を集約し、2つのネットワーク間の相互情報に対する低境界を最大化することができる。
画像分類と視覚認識タスクへの変換学習の実験は、階層的MCLが一貫した性能向上につながることを示す。
論文 参考訳(メタデータ) (2022-07-23T13:39:01Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Fast Class-wise Updating for Online Hashing [196.14748396106955]
本稿では,FCOH(Fast Class-wise Updating for Online Hashing)と呼ばれる新しいオンラインハッシュ方式を提案する。
クラスワイズ更新法は、バイナリコード学習を分解し、代わりにクラスワイズ方式でハッシュ関数を更新する。
オンラインの効率をより高めるために,異なるバイナリ制約を独立に扱うことで,オンライントレーニングを高速化する半緩和最適化を提案する。
論文 参考訳(メタデータ) (2020-12-01T07:41:54Z) - Making Online Sketching Hashing Even Faster [63.16042585506435]
本稿では,FROSH(FasteR Online Sketching Hashing)アルゴリズムを提案する。
提案したFROSHがより少ない時間を消費し、同等のスケッチ精度を実現することを保証するための理論的正当性を提供する。
また、FROSHの分散実装であるDFROSHを拡張して、FROSHのトレーニング時間コストをさらに削減する。
論文 参考訳(メタデータ) (2020-10-10T08:50:53Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。