論文の概要: CLIP Multi-modal Hashing: A new baseline CLIPMH
- arxiv url: http://arxiv.org/abs/2308.11797v1
- Date: Tue, 22 Aug 2023 21:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:37:41.341141
- Title: CLIP Multi-modal Hashing: A new baseline CLIPMH
- Title(参考訳): CLIP Multi-modal Hashing: 新しいベースラインCLIPMH
- Authors: Jian Zhu, Mingkai Sheng, Mingda Ke, Zhangmin Huang, Jingfei Chang
- Abstract要約: 本稿では,新しいベースラインCLIP Multi-modal Hashing (CLIPMH)法を提案する。
CLIPモデルを使ってテキストと画像の特徴を抽出し、ヒューズしてハッシュコードを生成する。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 4.057431980018267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-modal hashing method is widely used in multimedia retrieval. It can
fuse multi-source data to generate binary hash code. However, the current
multi-modal methods have the problem of low retrieval accuracy. The reason is
that the individual backbone networks have limited feature expression
capabilities and are not jointly pre-trained on large-scale unsupervised
multi-modal data. To solve this problem, we propose a new baseline CLIP
Multi-modal Hashing (CLIPMH) method. It uses CLIP model to extract text and
image features, and then fuse to generate hash code. CLIP improves the
expressiveness of each modal feature. In this way, it can greatly improve the
retrieval performance of multi-modal hashing methods. In comparison to
state-of-the-art unsupervised and supervised multi-modal hashing methods,
experiments reveal that the proposed CLIPMH can significantly enhance
performance (Maximum increase of 8.38%). CLIP also has great advantages over
the text and visual backbone networks commonly used before.
- Abstract(参考訳): マルチモーダルハッシュ法はマルチメディア検索に広く用いられている。
マルチソースデータを融合してバイナリハッシュコードを生成する。
しかし,現在のマルチモーダル法では,検索精度が低いという問題がある。
その理由は、個々のバックボーンネットワークが特徴表現能力に制限があり、大規模な教師なしマルチモーダルデータで共同で事前訓練されていないからである。
そこで本研究では,新しいベースラインクリップマルチモーダルハッシュ(clipmh)法を提案する。
CLIPモデルを使ってテキストと画像の特徴を抽出し、ヒューズしてハッシュコードを生成する。
CLIPは各モーダル特徴の表現性を改善する。
このようにして、マルチモーダルハッシュ法の検索性能を大幅に向上させることができる。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させることができる(最大8.38%)。
CLIPはまた、これまでよく使われていたテキストやビジュアルバックボーンネットワークに対して大きな利点があります。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - CLIP Multi-modal Hashing for Multimedia Retrieval [7.2683522480676395]
本稿では,CLIP Multi-modal Hashing (CLIPMH)法を提案する。
提案手法では,CLIPフレームワークを用いてテキストと視覚の両方の特徴を抽出し,それらを融合してハッシュコードを生成する。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-10-10T10:13:48Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Multimodal Fake News Detection via CLIP-Guided Learning [26.093561485807832]
本稿では、FND-CLIPフレームワーク、すなわち、コントラスト言語-画像事前学習(CLIP)に基づくマルチモーダルフェイクニュース検出ネットワークを提案する。
対象とするマルチモーダルニュースから,ResNetベースのエンコーダ,BERTベースのエンコーダ,および2つのペアワイズCLIPエンコーダを用いて,画像とテキストから深層表現を抽出する。
マルチモーダル特徴は、2つのモーダルの標準化されたクロスモーダル類似性によって重み付けられたCLIP生成特徴の連結である。
論文 参考訳(メタデータ) (2022-05-28T02:43:18Z) - PHPQ: Pyramid Hybrid Pooling Quantization for Efficient Fine-Grained
Image Retrieval [68.05570413133462]
マルチレベル特徴量から微細なセマンティック情報を捕捉・保存するためのピラミッドハイブリッドポーリング量子化(PHPQ)モジュールを提案する。
CUB-200-2011とStanford Dogsの2つの広く使用されている公開ベンチマークの実験では、PHPQが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2021-09-11T07:21:02Z) - Online Enhanced Semantic Hashing: Towards Effective and Efficient
Retrieval for Streaming Multi-Modal Data [21.157717777481572]
オンライン・エンハンス・セマントイック・ハシグ(OASIS)と呼ばれる新しいモデルを提案する。
我々は、新しいクラスを扱うのに役立つ、新しいセマンティック強化されたデータ表現を設計する。
我々の手法は最先端のモデルを超えることができる。
論文 参考訳(メタデータ) (2021-09-09T13:30:31Z) - MOON: Multi-Hash Codes Joint Learning for Cross-Media Retrieval [30.77157852327981]
クロスメディアハッシュ技術は高い計算効率と低ストレージコストで注目を集めている。
クロスメディア検索のための新しいMultiple hash cOdes jOint learNing法(MOON)を開発した。
論文 参考訳(メタデータ) (2021-08-17T14:47:47Z) - Unsupervised Multi-Index Semantic Hashing [23.169142004594434]
マルチインデックスハッシュに最適化することで,効率的かつ高効率なハッシュコードを学習する教師なしハッシュモデルを提案する。
文書類似度検索のタスクにおいて、MISHと最先端のセマンティックハッシュベースラインを実験的に比較する。
マルチインデックスハッシュは、線形スキャンと比較してベースラインの効率も向上しますが、MISHよりも33%遅くなっています。
論文 参考訳(メタデータ) (2021-03-26T13:33:48Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - Creating Something from Nothing: Unsupervised Knowledge Distillation for
Cross-Modal Hashing [132.22315429623575]
クロスモーダルハッシュ(CMH)は、特に視覚や言語において、異なるモーダルからのコンテンツを同じ空間にマッピングすることができる。
CMHには2つの主要なフレームワークがある。
本稿では,教師なし手法を用いて教師なし手法を導出する手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T08:32:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。