論文の概要: Deep Metric Multi-View Hashing for Multimedia Retrieval
- arxiv url: http://arxiv.org/abs/2304.06358v1
- Date: Thu, 13 Apr 2023 09:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:02:26.340865
- Title: Deep Metric Multi-View Hashing for Multimedia Retrieval
- Title(参考訳): マルチメディア検索のためのDeep Metric Multi-View Hashing
- Authors: Jian Zhu, Zhangmin Huang, Xiaohu Ruan, Yu Cui, Yongli Cheng, Lingfang
Zeng
- Abstract要約: 本稿では,これらの問題に対処するため,DMMVH法を提案する。
MIR-Flickr25K, MS COCO, NUS-WIDEでは, 現在の最先端手法よりも大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 3.539519688102545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning the hash representation of multi-view heterogeneous data is an
important task in multimedia retrieval. However, existing methods fail to
effectively fuse the multi-view features and utilize the metric information
provided by the dissimilar samples, leading to limited retrieval precision.
Current methods utilize weighted sum or concatenation to fuse the multi-view
features. We argue that these fusion methods cannot capture the interaction
among different views. Furthermore, these methods ignored the information
provided by the dissimilar samples. We propose a novel deep metric multi-view
hashing (DMMVH) method to address the mentioned problems. Extensive empirical
evidence is presented to show that gate-based fusion is better than typical
methods. We introduce deep metric learning to the multi-view hashing problems,
which can utilize metric information of dissimilar samples. On the
MIR-Flickr25K, MS COCO, and NUS-WIDE, our method outperforms the current
state-of-the-art methods by a large margin (up to 15.28 mean Average Precision
(mAP) improvement).
- Abstract(参考訳): 多視点異種データのハッシュ表現を学ぶことはマルチメディア検索において重要な課題である。
しかし、既存の手法では、マルチビューの特徴を効果的に融合することができず、異種サンプルによって提供されるメトリック情報を利用することで、検索精度が制限される。
現在の手法では重み付き和または結合を用いて多視点特徴を融合する。
これらの融合手法は異なる視点間の相互作用を捉えることはできない。
さらに,これらの手法は異種サンプルの情報を無視した。
本稿では,上記の問題に対処するために,新しいディープメトリックマルチビューハッシュ(dmmvh)法を提案する。
ゲートベースの融合が典型的な方法よりも優れていることを示す広範な実証的証拠が提示されている。
類似したサンプルのメトリクス情報を活用できるマルチビューハッシュ問題に対して,ディープメトリック学習を導入する。
MIR-Flickr25K, MS COCO, NUS-WIDEでは, 平均精度(mAP)を最大15.28倍に向上させた。
関連論文リスト
- Incomplete Contrastive Multi-View Clustering with High-Confidence
Guiding [7.305817202715752]
高信頼誘導(ICMVC)を用いた非完全コントラストマルチビュークラスタリング手法を提案する。
まず、欠落した値問題に対処するために、マルチビュー整合関係転送とグラフ畳み込みネットワークを提案する。
第2に、補完情報を活用するために、インスタンスレベルの注意融合と高信頼誘導を提案する。
論文 参考訳(メタデータ) (2023-12-14T07:28:41Z) - Adaptive Confidence Multi-View Hashing for Multimedia Retrieval [23.018331993442285]
マルチビューハッシュ法は、複数のビューからの異種データをバイナリハッシュコードに変換する。
信頼学習を行い、不要なノイズを除去するために、新しい適応信頼多視点ハッシュ法(ACMVH)を提案する。
論文 参考訳(メタデータ) (2023-12-12T14:43:09Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Central Similarity Multi-View Hashing for Multimedia Retrieval [14.766486538338498]
本稿では,CSMVH(Central similarity Multi-View Hashing)法を提案する。
MS COCO と NUS-WIDE では,提案したCSMVH は最先端の手法よりも大きなマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-08-26T05:43:29Z) - A Comparative Assessment of Multi-view fusion learning for Crop
Classification [3.883984493622102]
この研究は、CropHarvestデータセットにおける作物分類のための異なる融合戦略を評価する。
本稿では,3つの異なるデータセットに対する多視点融合法の比較を行い,テスト領域によって異なる手法が最高の性能を得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T08:03:58Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Creating Something from Nothing: Unsupervised Knowledge Distillation for
Cross-Modal Hashing [132.22315429623575]
クロスモーダルハッシュ(CMH)は、特に視覚や言語において、異なるモーダルからのコンテンツを同じ空間にマッピングすることができる。
CMHには2つの主要なフレームワークがある。
本稿では,教師なし手法を用いて教師なし手法を導出する手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T08:32:15Z) - Deep Multi-View Enhancement Hashing for Image Retrieval [40.974719473643724]
本稿では,ニューラルネットワークによるマルチビュー情報の強化が可能な教師付きマルチビューハッシュモデルを提案する。
提案手法は, CIFAR-10, NUS-WIDE, MS-COCOデータセットを用いて, システム評価を行った。
論文 参考訳(メタデータ) (2020-02-01T08:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。