論文の概要: Adaptive Confidence Multi-View Hashing for Multimedia Retrieval
- arxiv url: http://arxiv.org/abs/2312.07327v2
- Date: Tue, 16 Jan 2024 08:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 00:10:56.957664
- Title: Adaptive Confidence Multi-View Hashing for Multimedia Retrieval
- Title(参考訳): マルチメディア検索のための適応信頼度マルチビューハッシュ
- Authors: Jian Zhu, Yu Cui, Zhangmin Huang, Xingyu Li, Lei Liu, Lingfang Zeng,
Li-Rong Dai
- Abstract要約: マルチビューハッシュ法は、複数のビューからの異種データをバイナリハッシュコードに変換する。
信頼学習を行い、不要なノイズを除去するために、新しい適応信頼多視点ハッシュ法(ACMVH)を提案する。
- 参考スコア(独自算出の注目度): 23.018331993442285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-view hash method converts heterogeneous data from multiple views
into binary hash codes, which is one of the critical technologies in multimedia
retrieval. However, the current methods mainly explore the complementarity
among multiple views while lacking confidence learning and fusion. Moreover, in
practical application scenarios, the single-view data contain redundant noise.
To conduct the confidence learning and eliminate unnecessary noise, we propose
a novel Adaptive Confidence Multi-View Hashing (ACMVH) method. First, a
confidence network is developed to extract useful information from various
single-view features and remove noise information. Furthermore, an adaptive
confidence multi-view network is employed to measure the confidence of each
view and then fuse multi-view features through a weighted summation. Lastly, a
dilation network is designed to further enhance the feature representation of
the fused features. To the best of our knowledge, we pioneer the application of
confidence learning into the field of multimedia retrieval. Extensive
experiments on two public datasets show that the proposed ACMVH performs better
than state-of-the-art methods (maximum increase of 3.24%). The source code is
available at https://github.com/HackerHyper/ACMVH.
- Abstract(参考訳): マルチビューハッシュ法は,複数ビューからの異種データをバイナリハッシュコードに変換し,マルチメディア検索において重要な技術である。
しかし,本手法は主に信頼学習と融合を欠きながら,複数の視点の相補性を検討する。
さらに、現実的なアプリケーションシナリオでは、単一ビューデータは冗長ノイズを含む。
信頼度学習を行い、不要なノイズを除去するために、新しい適応信頼度マルチビューハッシュ(acmvh)法を提案する。
まず、様々な単一視点特徴から有用な情報を抽出し、ノイズ情報を除去する信頼ネットワークを開発する。
さらに、各ビューの信頼度を測定し、重み付けされた和を通じてマルチビュー特徴を融合させる適応型信頼度マルチビューネットワークを用いる。
最後に、拡張ネットワークは、融合した機能の特徴表現をさらに強化するように設計されている。
我々の知識を最大限に活用するために,マルチメディア検索分野への信頼度学習の適用を開拓した。
2つの公開データセットに関する広範囲な実験により、提案されたacmvhは最先端の手法よりも優れた性能を示す(最大で3.24%の増加)。
ソースコードはhttps://github.com/HackerHyper/ACMVHで入手できる。
関連論文リスト
- Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Deep Metric Multi-View Hashing for Multimedia Retrieval [3.539519688102545]
本稿では,これらの問題に対処するため,DMMVH法を提案する。
MIR-Flickr25K, MS COCO, NUS-WIDEでは, 現在の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-04-13T09:25:35Z) - Exploring Graph-aware Multi-View Fusion for Rumor Detection on Social
Media [23.231289922442414]
噂表現学習と分類のための新しい多視点融合フレームワークを提案する。
グラフ畳み込みニューラルネットワーク(GCN)に基づいて複数のビューを符号化し、畳み込みニューラルネットワーク(CNN)を活用する。
2つの公開データセットの実験結果から,本手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-08T13:27:43Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Deep Multi-View Enhancement Hashing for Image Retrieval [40.974719473643724]
本稿では,ニューラルネットワークによるマルチビュー情報の強化が可能な教師付きマルチビューハッシュモデルを提案する。
提案手法は, CIFAR-10, NUS-WIDE, MS-COCOデータセットを用いて, システム評価を行った。
論文 参考訳(メタデータ) (2020-02-01T08:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。