論文の概要: CLIP Multi-modal Hashing for Multimedia Retrieval
- arxiv url: http://arxiv.org/abs/2410.07783v1
- Date: Thu, 10 Oct 2024 10:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:56:00.921702
- Title: CLIP Multi-modal Hashing for Multimedia Retrieval
- Title(参考訳): マルチメディア検索のためのCLIPマルチモーダルハッシュ
- Authors: Jian Zhu, Mingkai Sheng, Zhangmin Huang, Jingfei Chang, Jinling Jiang, Jian Long, Cheng Luo, Lei Liu,
- Abstract要約: 本稿では,CLIP Multi-modal Hashing (CLIPMH)法を提案する。
提案手法では,CLIPフレームワークを用いてテキストと視覚の両方の特徴を抽出し,それらを融合してハッシュコードを生成する。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 7.2683522480676395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal hashing methods are widely used in multimedia retrieval, which can fuse multi-source data to generate binary hash code. However, the individual backbone networks have limited feature expression capabilities and are not jointly pre-trained on large-scale unsupervised multi-modal data, resulting in low retrieval accuracy. To address this issue, we propose a novel CLIP Multi-modal Hashing (CLIPMH) method. Our method employs the CLIP framework to extract both text and vision features and then fuses them to generate hash code. Due to enhancement on each modal feature, our method has great improvement in the retrieval performance of multi-modal hashing methods. Compared with state-of-the-art unsupervised and supervised multi-modal hashing methods, experiments reveal that the proposed CLIPMH can significantly improve performance (a maximum increase of 8.38% in mAP).
- Abstract(参考訳): マルチモーダルハッシュ法はマルチメディア検索において広く使われており、マルチソースデータを融合してバイナリハッシュコードを生成することができる。
しかし、個々のバックボーンネットワークは特徴表現能力に制限があり、大規模な教師なしマルチモーダルデータで共同で事前訓練されていないため、検索精度は低い。
そこで本研究では,CLIPMH(CLIPMH)法を提案する。
提案手法では,CLIPフレームワークを用いてテキストと視覚の両方の特徴を抽出し,それらを融合してハッシュコードを生成する。
本手法は,各モーダル特徴量の向上により,マルチモーダルハッシュ法の検索性能が向上した。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させる(最大8.38%のmAP増加)。
関連論文リスト
- MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - A Flexible Plug-and-Play Module for Generating Variable-Length [61.095479786194836]
Nested Hash Layer (NHL) は、既存の深い教師付きハッシュモデル用に設計されたプラグイン・アンド・プレイモジュールである。
NHLは、異なる長さのハッシュコードをネストした方法で同時に生成する。
NHLは、様々な深層ハッシュモデルに対して優れた検索性能を達成する。
論文 参考訳(メタデータ) (2024-12-12T04:13:09Z) - Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - CLIP Multi-modal Hashing: A new baseline CLIPMH [4.057431980018267]
本稿では,新しいベースラインCLIP Multi-modal Hashing (CLIPMH)法を提案する。
CLIPモデルを使ってテキストと画像の特徴を抽出し、ヒューズしてハッシュコードを生成する。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-08-22T21:29:55Z) - Deep Metric Multi-View Hashing for Multimedia Retrieval [3.539519688102545]
本稿では,これらの問題に対処するため,DMMVH法を提案する。
MIR-Flickr25K, MS COCO, NUS-WIDEでは, 現在の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-04-13T09:25:35Z) - Online Enhanced Semantic Hashing: Towards Effective and Efficient
Retrieval for Streaming Multi-Modal Data [21.157717777481572]
オンライン・エンハンス・セマントイック・ハシグ(OASIS)と呼ばれる新しいモデルを提案する。
我々は、新しいクラスを扱うのに役立つ、新しいセマンティック強化されたデータ表現を設計する。
我々の手法は最先端のモデルを超えることができる。
論文 参考訳(メタデータ) (2021-09-09T13:30:31Z) - MOON: Multi-Hash Codes Joint Learning for Cross-Media Retrieval [30.77157852327981]
クロスメディアハッシュ技術は高い計算効率と低ストレージコストで注目を集めている。
クロスメディア検索のための新しいMultiple hash cOdes jOint learNing法(MOON)を開発した。
論文 参考訳(メタデータ) (2021-08-17T14:47:47Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - Creating Something from Nothing: Unsupervised Knowledge Distillation for
Cross-Modal Hashing [132.22315429623575]
クロスモーダルハッシュ(CMH)は、特に視覚や言語において、異なるモーダルからのコンテンツを同じ空間にマッピングすることができる。
CMHには2つの主要なフレームワークがある。
本稿では,教師なし手法を用いて教師なし手法を導出する手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T08:32:15Z) - A Survey on Deep Hashing Methods [52.326472103233854]
最寄りの検索は、データベースからクエリまでの距離が最小のサンプルを取得することを目的としている。
ディープラーニングの発展により、ディープハッシュ法は従来の方法よりも多くの利点を示す。
深い教師付きハッシュは、ペアワイズ法、ランキングベースの方法、ポイントワイズ法、量子化に分類される。
深い教師なしハッシュは、類似性再構築に基づく方法、擬似ラベルに基づく方法、予測自由な自己教師あり学習に基づく方法に分類される。
論文 参考訳(メタデータ) (2020-03-04T08:25:15Z) - Deep Multi-View Enhancement Hashing for Image Retrieval [40.974719473643724]
本稿では,ニューラルネットワークによるマルチビュー情報の強化が可能な教師付きマルチビューハッシュモデルを提案する。
提案手法は, CIFAR-10, NUS-WIDE, MS-COCOデータセットを用いて, システム評価を行った。
論文 参考訳(メタデータ) (2020-02-01T08:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。