論文の概要: Information-Theoretic Hashing for Zero-Shot Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2209.12491v1
- Date: Mon, 26 Sep 2022 08:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 18:12:20.529314
- Title: Information-Theoretic Hashing for Zero-Shot Cross-Modal Retrieval
- Title(参考訳): ゼロショットクロスモーダル検索のための情報理論ハッシュ
- Authors: Yufeng Shi, Shujian Yu, Duanquan Xu, Xinge You
- Abstract要約: 本稿では,情報理論の観点から,共通のハミング空間を構築する(あるいは学習する)全く異なる方法を考える。
具体的には、AIAモジュールはPRI(Principle of Relevant Information)からインスピレーションを得て、異なるデータモダリティの本質的な意味を適応的に集約する共通空間を構築する。
我々のSPEモジュールはさらに、固有の意味論とKL(Kulback-Leibler)の相似性を保存することで、異なるモダリティのハッシュコードを生成する。
- 参考スコア(独自算出の注目度): 19.97731329580582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot cross-modal retrieval (ZS-CMR) deals with the retrieval problem
among heterogenous data from unseen classes. Typically, to guarantee
generalization, the pre-defined class embeddings from natural language
processing (NLP) models are used to build a common space. In this paper,
instead of using an extra NLP model to define a common space beforehand, we
consider a totally different way to construct (or learn) a common hamming space
from an information-theoretic perspective. We term our model the
Information-Theoretic Hashing (ITH), which is composed of two cascading
modules: an Adaptive Information Aggregation (AIA) module; and a Semantic
Preserving Encoding (SPE) module. Specifically, our AIA module takes the
inspiration from the Principle of Relevant Information (PRI) to construct a
common space that adaptively aggregates the intrinsic semantics of different
modalities of data and filters out redundant or irrelevant information. On the
other hand, our SPE module further generates the hashing codes of different
modalities by preserving the similarity of intrinsic semantics with the
element-wise Kullback-Leibler (KL) divergence. A total correlation
regularization term is also imposed to reduce the redundancy amongst different
dimensions of hash codes. Sufficient experiments on three benchmark datasets
demonstrate the superiority of the proposed ITH in ZS-CMR. Source code is
available in the supplementary material.
- Abstract(参考訳): ゼロショットクロスモーダル検索(zs-cmr)は,未知クラスからの異種データ間の検索問題を扱う。
通常、一般化を保証するために、自然言語処理(NLP)モデルから定義されたクラス埋め込みを用いて共通空間を構築する。
本稿では,NLPモデルを用いて共通空間を事前に定義するのではなく,情報理論の観点から共通ハミング空間を構築する(あるいは学習する)全く異なる方法を検討する。
本稿では,アダプティブ情報集約(AIA)モジュールとセマンティック保存符号化(SPE)モジュールの2つのカスケードモジュールからなる情報理論ハッシュ(ITH)モデルについて述べる。
具体的には、AIAモジュールは、関連情報原理(PRI)からインスピレーションを得て、異なるデータモダリティの本質的な意味を適応的に集約し、冗長または無関係な情報をフィルタリングする共通空間を構築する。
一方,speモジュールは,kl(element-wise kullback-leibler)の分岐と固有意味論の類似性を保ちながら,異なるモダリティのハッシュ符号を生成する。
ハッシュ符号の異なる次元間の冗長性を低減するために、総相関正規化項も課される。
3つのベンチマークデータセットに対する十分な実験は、ZS-CMRにおける提案されたITHの優位性を示す。
ソースコードは補足資料で入手できる。
関連論文リスト
- SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning [0.7420433640907689]
一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Symmetric Equilibrium Learning of VAEs [56.56929742714685]
可変オートエンコーダ(VAE)をデコーダ-エンコーダペアとみなし,データ空間内の分布を潜在空間内の分布にマッピングする。
本研究では,エンコーダとデコーダに対して対称なナッシュ均衡学習手法を提案し,データと潜伏分布の両方がサンプリングによってのみアクセス可能な状況下でのVAEの学習を可能にする。
論文 参考訳(メタデータ) (2023-07-19T10:27:34Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - MIANet: Aggregating Unbiased Instance and General Information for
Few-Shot Semantic Segmentation [6.053853367809978]
既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて,サポートセットからインスタンス知識を抽出する。
本稿では,多情報集約ネットワーク(MIANet)を提案する。
PASCAL-5iとCOCO-20iの実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-23T09:36:27Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。