論文の概要: Deep Metric Multi-View Hashing for Multimedia Retrieval
- arxiv url: http://arxiv.org/abs/2304.06358v1
- Date: Thu, 13 Apr 2023 09:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:02:26.340865
- Title: Deep Metric Multi-View Hashing for Multimedia Retrieval
- Title(参考訳): マルチメディア検索のためのDeep Metric Multi-View Hashing
- Authors: Jian Zhu, Zhangmin Huang, Xiaohu Ruan, Yu Cui, Yongli Cheng, Lingfang
Zeng
- Abstract要約: 本稿では,これらの問題に対処するため,DMMVH法を提案する。
MIR-Flickr25K, MS COCO, NUS-WIDEでは, 現在の最先端手法よりも大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 3.539519688102545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning the hash representation of multi-view heterogeneous data is an
important task in multimedia retrieval. However, existing methods fail to
effectively fuse the multi-view features and utilize the metric information
provided by the dissimilar samples, leading to limited retrieval precision.
Current methods utilize weighted sum or concatenation to fuse the multi-view
features. We argue that these fusion methods cannot capture the interaction
among different views. Furthermore, these methods ignored the information
provided by the dissimilar samples. We propose a novel deep metric multi-view
hashing (DMMVH) method to address the mentioned problems. Extensive empirical
evidence is presented to show that gate-based fusion is better than typical
methods. We introduce deep metric learning to the multi-view hashing problems,
which can utilize metric information of dissimilar samples. On the
MIR-Flickr25K, MS COCO, and NUS-WIDE, our method outperforms the current
state-of-the-art methods by a large margin (up to 15.28 mean Average Precision
(mAP) improvement).
- Abstract(参考訳): 多視点異種データのハッシュ表現を学ぶことはマルチメディア検索において重要な課題である。
しかし、既存の手法では、マルチビューの特徴を効果的に融合することができず、異種サンプルによって提供されるメトリック情報を利用することで、検索精度が制限される。
現在の手法では重み付き和または結合を用いて多視点特徴を融合する。
これらの融合手法は異なる視点間の相互作用を捉えることはできない。
さらに,これらの手法は異種サンプルの情報を無視した。
本稿では,上記の問題に対処するために,新しいディープメトリックマルチビューハッシュ(dmmvh)法を提案する。
ゲートベースの融合が典型的な方法よりも優れていることを示す広範な実証的証拠が提示されている。
類似したサンプルのメトリクス情報を活用できるマルチビューハッシュ問題に対して,ディープメトリック学習を導入する。
MIR-Flickr25K, MS COCO, NUS-WIDEでは, 平均精度(mAP)を最大15.28倍に向上させた。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - CLIP Multi-modal Hashing for Multimedia Retrieval [7.2683522480676395]
本稿では,CLIP Multi-modal Hashing (CLIPMH)法を提案する。
提案手法では,CLIPフレームワークを用いてテキストと視覚の両方の特徴を抽出し,それらを融合してハッシュコードを生成する。
最先端の教師なしおよび教師付きマルチモーダルハッシュ法と比較して,提案したCLIPMHは性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-10-10T10:13:48Z) - MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs [47.353720361676004]
マルチモーダル誤報検出法は、しばしばサンプルごとに単一のソースと種類の偽造を仮定する。
混合ソースの誤情報に対するベンチマークが欠如していることは、この分野の進歩を妨げている。
MMFakeBenchは、ミックスソースMDDの最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-13T03:04:28Z) - Adaptive Confidence Multi-View Hashing for Multimedia Retrieval [23.018331993442285]
マルチビューハッシュ法は、複数のビューからの異種データをバイナリハッシュコードに変換する。
信頼学習を行い、不要なノイズを除去するために、新しい適応信頼多視点ハッシュ法(ACMVH)を提案する。
論文 参考訳(メタデータ) (2023-12-12T14:43:09Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Central Similarity Multi-View Hashing for Multimedia Retrieval [14.766486538338498]
本稿では,CSMVH(Central similarity Multi-View Hashing)法を提案する。
MS COCO と NUS-WIDE では,提案したCSMVH は最先端の手法よりも大きなマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-08-26T05:43:29Z) - A Comparative Assessment of Multi-view fusion learning for Crop
Classification [3.883984493622102]
この研究は、CropHarvestデータセットにおける作物分類のための異なる融合戦略を評価する。
本稿では,3つの異なるデータセットに対する多視点融合法の比較を行い,テスト領域によって異なる手法が最高の性能を得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T08:03:58Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Deep Multi-View Enhancement Hashing for Image Retrieval [40.974719473643724]
本稿では,ニューラルネットワークによるマルチビュー情報の強化が可能な教師付きマルチビューハッシュモデルを提案する。
提案手法は, CIFAR-10, NUS-WIDE, MS-COCOデータセットを用いて, システム評価を行った。
論文 参考訳(メタデータ) (2020-02-01T08:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。