論文の概要: Learning Disentangled Latent Factors from Paired Data in Cross-Modal
Retrieval: An Implicit Identifiable VAE Approach
- arxiv url: http://arxiv.org/abs/2012.00682v1
- Date: Tue, 1 Dec 2020 17:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 20:00:31.463860
- Title: Learning Disentangled Latent Factors from Paired Data in Cross-Modal
Retrieval: An Implicit Identifiable VAE Approach
- Title(参考訳): 複数モーダル検索におけるペアデータからの非絡み付き潜伏因子の学習:暗黙の特定可能なVAEアプローチ
- Authors: Minyoung Kim, Ricardo Guerrero, Vladimir Pavlovic
- Abstract要約: 両モーダルデータ間で相互に共有される不整合潜在因子を相互に検索する際の問題に対処する。
本稿では,潜在変数モデルから周辺データデコードモジュールを完全に除去する暗黙デコーダの新たなアイデアを提案する。
本モデルでは,従来のエンコーダ・デコーダの潜在変数モデルよりも精度が高く,精度も優れていた。
- 参考スコア(独自算出の注目度): 33.61751393224223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We deal with the problem of learning the underlying disentangled latent
factors that are shared between the paired bi-modal data in cross-modal
retrieval. Our assumption is that the data in both modalities are complex,
structured, and high dimensional (e.g., image and text), for which the
conventional deep auto-encoding latent variable models such as the Variational
Autoencoder (VAE) often suffer from difficulty of accurate decoder training or
realistic synthesis. A suboptimally trained decoder can potentially harm the
model's capability of identifying the true factors. In this paper we propose a
novel idea of the implicit decoder, which completely removes the ambient data
decoding module from a latent variable model, via implicit encoder inversion
that is achieved by Jacobian regularization of the low-dimensional embedding
function. Motivated from the recent Identifiable VAE (IVAE) model, we modify it
to incorporate the query modality data as conditioning auxiliary input, which
allows us to prove that the true parameters of the model can be identified
under some regularity conditions. Tested on various datasets where the true
factors are fully/partially available, our model is shown to identify the
factors accurately, significantly outperforming conventional encoder-decoder
latent variable models. We also test our model on the Recipe1M, the large-scale
food image/recipe dataset, where the learned factors by our approach highly
coincide with the most pronounced food factors that are widely agreed on,
including savoriness, wateriness, and greenness.
- Abstract(参考訳): クロスモーダル検索において,ペアのバイモーダルデータ間で共有される不連続な潜在要因を学習する問題に対処する。
我々の仮定では、両モードのデータは複雑で構造化され、高次元(画像やテキストなど)であり、従来の変分オートエンコーダ(VAE)のような遅延変数モデルでは正確なデコーダ訓練や現実的な合成が困難であることが多い。
最適に訓練されたデコーダは、真の要因を特定するモデルの能力を傷つける可能性がある。
本稿では,低次元埋め込み関数のヤコビアン正則化によって達成された暗黙エンコーダインバージョンを通じて,潜在変数モデルから環境データ復号モジュールを完全に削除する,暗黙的デコーダの新たなアイデアを提案する。
近年の Identible VAE (IVAE) モデルから動機付けされ,クエリのモダリティデータを条件付補助入力として組み込むことで,モデルの真のパラメータが一定の規則性条件下で識別可能であることを示す。
本モデルでは,真の因子が完全かつ部分的に利用可能である各種データセットを用いて,それらの因子を正確に同定し,従来のエンコーダ・デコーダ・潜在変数モデルよりも有意に優れていることを示す。
また,大規模食品画像/レシピデータセットである recipe1m では,本手法による学習要素と,鮮度,水度,緑度など,最も明確な食品要因との一致度が高かった。
関連論文リスト
- Latent variable model for high-dimensional point process with structured missingness [4.451479907610764]
縦断データは医療、社会学、地震学など多くの分野で重要である。
実世界のデータセットは高次元であり、構造化された欠陥パターンを含み、測定時間ポイントは未知のプロセスによって管理される。
これらの制限に対処可能な、柔軟で効率的な潜在変数モデルを提案する。
論文 参考訳(メタデータ) (2024-02-08T15:41:48Z) - Predictive variational autoencoder for learning robust representations
of time-series data [0.0]
本稿では,次点を予測するVAEアーキテクチャを提案する。
VAEの2つの制約は、時間とともにスムーズであることを示し、堅牢な潜伏表現を生成し、合成データセット上の潜伏因子を忠実に回収する。
論文 参考訳(メタデータ) (2023-12-12T02:06:50Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Informative Data Selection with Uncertainty for Multi-modal Object
Detection [25.602915381482468]
普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。
我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
論文 参考訳(メタデータ) (2023-04-23T16:36:13Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Posterior Collapse and Latent Variable Non-identifiability [54.842098835445]
柔軟性を犠牲にすることなく識別性を強制する深層生成モデルである,潜時同定可能な変分オートエンコーダのクラスを提案する。
合成および実データ全体にわたって、潜在識別可能な変分オートエンコーダは、後方崩壊を緩和し、データの有意義な表現を提供する既存の方法より優れている。
論文 参考訳(メタデータ) (2023-01-02T06:16:56Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。