論文の概要: CLIP Multi-modal Hashing for Multimedia Retrieval
- arxiv url: http://arxiv.org/abs/2410.07783v1
- Date: Thu, 10 Oct 2024 10:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:56:00.921702
- Title: CLIP Multi-modal Hashing for Multimedia Retrieval
- Title(参考訳): マルチメディア検索のためのCLIPマルチモーダルハッシュ
- Authors: Jian Zhu, Mingkai Sheng, Zhangmin Huang, Jingfei Chang, Jinling Jiang, Jian Long, Cheng Luo, Lei Liu,
- Abstract要約: 本稿では,CLIP Multi-modal Hashing (CLIPMH)法を提案する。
提案手法では,CLIPフレームワークを用いてテキストと視覚の両方の特徴を抽出し,それらを融合してハッシュコードを生成する。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 7.2683522480676395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal hashing methods are widely used in multimedia retrieval, which can fuse multi-source data to generate binary hash code. However, the individual backbone networks have limited feature expression capabilities and are not jointly pre-trained on large-scale unsupervised multi-modal data, resulting in low retrieval accuracy. To address this issue, we propose a novel CLIP Multi-modal Hashing (CLIPMH) method. Our method employs the CLIP framework to extract both text and vision features and then fuses them to generate hash code. Due to enhancement on each modal feature, our method has great improvement in the retrieval performance of multi-modal hashing methods. Compared with state-of-the-art unsupervised and supervised multi-modal hashing methods, experiments reveal that the proposed CLIPMH can significantly improve performance (a maximum increase of 8.38% in mAP).
- Abstract(参考訳): マルチモーダルハッシュ法はマルチメディア検索において広く使われており、マルチソースデータを融合してバイナリハッシュコードを生成することができる。
しかし、個々のバックボーンネットワークは特徴表現能力に制限があり、大規模な教師なしマルチモーダルデータで共同で事前訓練されていないため、検索精度は低い。
そこで本研究では,CLIPMH(CLIPMH)法を提案する。
提案手法では,CLIPフレームワークを用いてテキストと視覚の両方の特徴を抽出し,それらを融合してハッシュコードを生成する。
本手法は,各モーダル特徴量の向上により,マルチモーダルハッシュ法の検索性能が向上した。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させる(最大8.38%のmAP増加)。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。
本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。
我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文 参考訳(メタデータ) (2024-07-10T10:13:11Z) - CLIP Multi-modal Hashing: A new baseline CLIPMH [4.057431980018267]
本稿では,新しいベースラインCLIP Multi-modal Hashing (CLIPMH)法を提案する。
CLIPモデルを使ってテキストと画像の特徴を抽出し、ヒューズしてハッシュコードを生成する。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-08-22T21:29:55Z) - Deep Metric Multi-View Hashing for Multimedia Retrieval [3.539519688102545]
本稿では,これらの問題に対処するため,DMMVH法を提案する。
MIR-Flickr25K, MS COCO, NUS-WIDEでは, 現在の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-04-13T09:25:35Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Online Enhanced Semantic Hashing: Towards Effective and Efficient
Retrieval for Streaming Multi-Modal Data [21.157717777481572]
オンライン・エンハンス・セマントイック・ハシグ(OASIS)と呼ばれる新しいモデルを提案する。
我々は、新しいクラスを扱うのに役立つ、新しいセマンティック強化されたデータ表現を設計する。
我々の手法は最先端のモデルを超えることができる。
論文 参考訳(メタデータ) (2021-09-09T13:30:31Z) - MOON: Multi-Hash Codes Joint Learning for Cross-Media Retrieval [30.77157852327981]
クロスメディアハッシュ技術は高い計算効率と低ストレージコストで注目を集めている。
クロスメディア検索のための新しいMultiple hash cOdes jOint learNing法(MOON)を開発した。
論文 参考訳(メタデータ) (2021-08-17T14:47:47Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - Creating Something from Nothing: Unsupervised Knowledge Distillation for
Cross-Modal Hashing [132.22315429623575]
クロスモーダルハッシュ(CMH)は、特に視覚や言語において、異なるモーダルからのコンテンツを同じ空間にマッピングすることができる。
CMHには2つの主要なフレームワークがある。
本稿では,教師なし手法を用いて教師なし手法を導出する手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T08:32:15Z) - A Survey on Deep Hashing Methods [52.326472103233854]
最寄りの検索は、データベースからクエリまでの距離が最小のサンプルを取得することを目的としている。
ディープラーニングの発展により、ディープハッシュ法は従来の方法よりも多くの利点を示す。
深い教師付きハッシュは、ペアワイズ法、ランキングベースの方法、ポイントワイズ法、量子化に分類される。
深い教師なしハッシュは、類似性再構築に基づく方法、擬似ラベルに基づく方法、予測自由な自己教師あり学習に基づく方法に分類される。
論文 参考訳(メタデータ) (2020-03-04T08:25:15Z) - Deep Multi-View Enhancement Hashing for Image Retrieval [40.974719473643724]
本稿では,ニューラルネットワークによるマルチビュー情報の強化が可能な教師付きマルチビューハッシュモデルを提案する。
提案手法は, CIFAR-10, NUS-WIDE, MS-COCOデータセットを用いて, システム評価を行った。
論文 参考訳(メタデータ) (2020-02-01T08:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。