論文の概要: Long-tail Cross Modal Hashing
- arxiv url: http://arxiv.org/abs/2211.15162v1
- Date: Mon, 28 Nov 2022 09:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:45:48.276044
- Title: Long-tail Cross Modal Hashing
- Title(参考訳): ロングテールクロスモーダルハッシュ
- Authors: Zijun Gao, Jun Wang, Guoxian Yu, Zhongmin Yan, Carlotta Domeniconi,
Jinglin Zhang
- Abstract要約: 我々は不均衡なマルチモーダルデータを扱うためにLtCMH(Long-tail CMH)を提案する。
LtCMHは、ロングテールデータセットの最先端ベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 28.56122404774158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Cross Modal Hashing (CMH) methods are mainly designed for balanced
data, while imbalanced data with long-tail distribution is more general in
real-world. Several long-tail hashing methods have been proposed but they can
not adapt for multi-modal data, due to the complex interplay between labels and
individuality and commonality information of multi-modal data. Furthermore, CMH
methods mostly mine the commonality of multi-modal data to learn hash codes,
which may override tail labels encoded by the individuality of respective
modalities. In this paper, we propose LtCMH (Long-tail CMH) to handle
imbalanced multi-modal data. LtCMH firstly adopts auto-encoders to mine the
individuality and commonality of different modalities by minimizing the
dependency between the individuality of respective modalities and by enhancing
the commonality of these modalities. Then it dynamically combines the
individuality and commonality with direct features extracted from respective
modalities to create meta features that enrich the representation of tail
labels, and binaries meta features to generate hash codes. LtCMH significantly
outperforms state-of-the-art baselines on long-tail datasets and holds a better
(or comparable) performance on datasets with balanced labels.
- Abstract(参考訳): 既存のクロスモーダルハッシュ法(cmh)は主にバランスのあるデータのために設計されているが、ロングテール分布を持つ不均衡なデータは現実世界でより一般的である。
いくつかのロングテールハッシュ法が提案されているが、ラベルと個人間の複雑な相互作用とマルチモーダルデータの共通性情報のため、マルチモーダルデータには適応できない。
さらに、cmh法は、各モダリティの個性によって符号化された末尾ラベルをオーバーライドするハッシュコードを学ぶために、多モードデータの共通性を発掘する。
本稿では,不均衡なマルチモーダルデータを扱うLtCMH(Long-tail CMH)を提案する。
LtCMHはまず、各モダリティの個性と共通性を最小化し、これらのモダリティの共通性を高めることで、異なるモダリティの個性と共通性をマイニングするオートエンコーダを採用する。
次に、個性と共通性を各モジュールから抽出した直接特徴と動的に組み合わせて、テールラベルの表現を豊かにするメタ特徴と、ハッシュコードを生成するバイナリメタ特徴を生成する。
LtCMHは、ロングテールデータセットの最先端ベースラインを著しく上回り、バランスの取れたラベルを持つデータセットの(あるいは同等の)パフォーマンスを向上する。
関連論文リスト
- Supervised Multi-Modal Fission Learning [19.396207029419813]
マルチモーダルデータセットからの学習は相補的な情報を活用することができ、予測タスクのパフォーマンスを向上させることができる。
本稿では,グローバルな関節,部分的な関節,個々のコンポーネントを同時に識別するマルチモーダル・フィッション・ラーニング・モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:58:03Z) - Cross-Modality Clustering-based Self-Labeling for Multimodal Data Classification [2.666791490663749]
CMCSL(Cross-Modality Clustering-based Self-Labeling)
CMCSLは、深い特徴空間の各モードに属するインスタンスをグループ化し、その結果のクラスタ内で既知のラベルを伝搬する。
MM-IMDbデータセットから抽出した20個のデータセットに対する実験的検討
論文 参考訳(メタデータ) (2024-08-05T15:43:56Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Meta Cross-Modal Hashing on Long-Tailed Data [47.64367056699699]
マルチモーダルデータの近接探索のために、クロスモーダルハッシュが広く研究されている。
本稿では,メタラーニングに基づくクロスモーダルハッシュ法を提案する。
長い尾を持つデータセットの実験では、MetaCMHは最先端の手法よりもはるかに優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-11-07T13:31:16Z) - Private-Shared Disentangled Multimodal VAE for Learning of Hybrid Latent
Representations [24.3033562693679]
本稿では,複数モードのプライベートおよび共有潜在空間を分離するために,分散VAE戦略を利用した分散マルチモーダル変分オートエンコーダ(DMVAE)を提案する。
DMVAEの有用性を半教師付き学習タスクで実証し、モダリティの1つに部分的なデータラベルが含まれている。
いくつかのベンチマークで行った実験は、プライベートシェードな絡み合いとハイブリッドな潜伏表現の重要性を示している。
論文 参考訳(メタデータ) (2020-12-23T23:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。