論文の概要: Integrating Information Theory and Adversarial Learning for Cross-modal
Retrieval
- arxiv url: http://arxiv.org/abs/2104.04991v1
- Date: Sun, 11 Apr 2021 11:04:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:12:40.560216
- Title: Integrating Information Theory and Adversarial Learning for Cross-modal
Retrieval
- Title(参考訳): クロスモーダル検索のための情報理論と逆学習の統合
- Authors: Wei Chen, Yu Liu, Erwin M. Bakker, Michael S. Lew
- Abstract要約: マルチメディアコミュニティでは,クロスモーダル検索における視覚データとテキストデータのマッチングが広く研究されている。
シャノン情報理論と対比学習の統合を提案する。
ギャップの観点からは,モダリティ分類と情報エントロピーを相反的に統合する。
- 参考スコア(独自算出の注目度): 19.600581093189362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately matching visual and textual data in cross-modal retrieval has been
widely studied in the multimedia community. To address these challenges posited
by the heterogeneity gap and the semantic gap, we propose integrating Shannon
information theory and adversarial learning. In terms of the heterogeneity gap,
we integrate modality classification and information entropy maximization
adversarially. For this purpose, a modality classifier (as a discriminator) is
built to distinguish the text and image modalities according to their different
statistical properties. This discriminator uses its output probabilities to
compute Shannon information entropy, which measures the uncertainty of the
modality classification it performs. Moreover, feature encoders (as a
generator) project uni-modal features into a commonly shared space and attempt
to fool the discriminator by maximizing its output information entropy. Thus,
maximizing information entropy gradually reduces the distribution discrepancy
of cross-modal features, thereby achieving a domain confusion state where the
discriminator cannot classify two modalities confidently. To reduce the
semantic gap, Kullback-Leibler (KL) divergence and bi-directional triplet loss
are used to associate the intra- and inter-modality similarity between features
in the shared space. Furthermore, a regularization term based on KL-divergence
with temperature scaling is used to calibrate the biased label classifier
caused by the data imbalance issue. Extensive experiments with four deep models
on four benchmarks are conducted to demonstrate the effectiveness of the
proposed approach.
- Abstract(参考訳): マルチメディアコミュニティでは,クロスモーダル検索における視覚データとテキストデータのマッチングが広く研究されている。
異質性ギャップと意味的ギャップによって生じるこれらの課題に対処するために,シャノン情報理論と逆学習を統合することを提案する。
異質性ギャップの観点からは、モダリティ分類と情報エントロピー最大化を相反的に統合する。
この目的のために、異なる統計特性に応じてテキストと画像のモダリティを区別するために、モダリティ分類器(判別器)を構築する。
この判別器はその出力確率を用いてシャノン情報エントロピーを計算し、それが実行するモダリティ分類の不確実性を測定する。
さらに、特徴エンコーダ(ジェネレータ)は、共通の共有空間にユニモーダル特徴を投影し、その出力情報エントロピーを最大化して識別器を騙そうとする。
これにより、情報エントロピーの最大化は、クロスモーダル特徴の分布差を徐々に減少させ、判別器が2つのモダリティを確実に分類できない領域混乱状態を実現する。
セマンティクスギャップを低減するために、共有空間の特徴間のモダリティ内およびモダリティ間の類似性を関連付けるために、kullback-leibler(kl)の分岐と双方向三重項損失を用いる。
さらに、温度スケーリングを伴うKL偏差に基づく正規化項を用いて、データ不均衡問題に起因するバイアスラベル分類器を校正する。
4つのベンチマークで4つの深層モデルを用いた広範囲な実験を行い,提案手法の有効性を実証した。
関連論文リスト
- Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - Generalizable Heterogeneous Federated Cross-Correlation and Instance
Similarity Learning [60.058083574671834]
本稿では,新しいFCCL+,フェデレーション相関と非ターゲット蒸留との類似性学習を提案する。
不均一な問題に対しては、無関係な公開データを通信に活用する。
局所的な更新段階における破滅的な忘れ物として、FCCL+はFederated Non Target Distillationを導入している。
論文 参考訳(メタデータ) (2023-09-28T09:32:27Z) - Self-Supervised Learning with an Information Maximization Criterion [5.214806886230471]
同じ入力の代替表現間の情報の直接的な適用は、崩壊問題を自然に解決する、と我々は主張する。
本稿では,2次統計に基づく相互情報尺度を用いた自己教師型学習手法CorInfoMaxを提案する。
CorInfoMaxは、最先端のSSLアプローチと比較して、より良い、あるいは競争力のあるパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-09-16T15:26:19Z) - Discriminative Supervised Subspace Learning for Cross-modal Retrieval [16.035973055257642]
クロスモーダル検索のための識別型教師付き部分空間学習法(DS2L)を提案する。
具体的には、まず、各モダリティ内の意味構造を保存するために、共有セマンティックグラフを構築する。
次に,Hilbert-Schmidt Independence Criterion (HSIC)を導入し,特徴相似性とサンプルの意味相似性との相似性を維持する。
論文 参考訳(メタデータ) (2022-01-26T14:27:39Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - The Role of Mutual Information in Variational Classifiers [47.10478919049443]
クロスエントロピー損失を訓練した符号化に依存する分類器の一般化誤差について検討する。
我々は、一般化誤差が相互情報によって境界付けられた状態が存在することを示す一般化誤差に境界を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:27:57Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Learning Diverse and Discriminative Representations via the Principle of
Maximal Coding Rate Reduction [32.21975128854042]
本稿では、データセット全体と各クラスの和との符号化レート差を最大化する情報理論尺度である最大符号化レート削減(textMCR2$)の原理を提案する。
我々は,クロスエントロピー,情報ボトルネック,情報ゲイン,契約的・コントラスト的学習など,既存のフレームワークとの関係を明らかにするとともに,多様かつ差別的な特徴を学習するための理論的保証を提供する。
論文 参考訳(メタデータ) (2020-06-15T17:23:55Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。