論文の概要: Deep Reversible Consistency Learning for Cross-modal Retrieval
- arxiv url: http://arxiv.org/abs/2501.05686v1
- Date: Fri, 10 Jan 2025 03:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:42.804717
- Title: Deep Reversible Consistency Learning for Cross-modal Retrieval
- Title(参考訳): クロスモーダル検索のためのDeep Reversible Consistency Learning
- Authors: Ruitao Pu, Yang Qin, Dezhong Peng, Xiaomin Song, Huiming Zheng,
- Abstract要約: クロスモーダル検索(CMR)は通常、マルチモーダルサンプル間の類似性を直接測定するために共通の表現を学習する。
既存のCMR法の多くは、ペアでマルチモーダルサンプルを仮定し、共通表現を学ぶために共同トレーニングを採用している。
クロスモーダル検索のためのDeep Reversible Consistency Learning (DRCL) と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 12.174193446177778
- License:
- Abstract: Cross-modal retrieval (CMR) typically involves learning common representations to directly measure similarities between multimodal samples. Most existing CMR methods commonly assume multimodal samples in pairs and employ joint training to learn common representations, limiting the flexibility of CMR. Although some methods adopt independent training strategies for each modality to improve flexibility in CMR, they utilize the randomly initialized orthogonal matrices to guide representation learning, which is suboptimal since they assume inter-class samples are independent of each other, limiting the potential of semantic alignments between sample representations and ground-truth labels. To address these issues, we propose a novel method termed Deep Reversible Consistency Learning (DRCL) for cross-modal retrieval. DRCL includes two core modules, \ie Selective Prior Learning (SPL) and Reversible Semantic Consistency learning (RSC). More specifically, SPL first learns a transformation weight matrix on each modality and selects the best one based on the quality score as the Prior, which greatly avoids blind selection of priors learned from low-quality modalities. Then, RSC employs a Modality-invariant Representation Recasting mechanism (MRR) to recast the potential modality-invariant representations from sample semantic labels by the generalized inverse matrix of the prior. Since labels are devoid of modal-specific information, we utilize the recast features to guide the representation learning, thus maintaining semantic consistency to the fullest extent possible. In addition, a feature augmentation mechanism (FA) is introduced in RSC to encourage the model to learn over a wider data distribution for diversity. Finally, extensive experiments conducted on five widely used datasets and comparisons with 15 state-of-the-art baselines demonstrate the effectiveness and superiority of our DRCL.
- Abstract(参考訳): クロスモーダル検索(CMR)は通常、マルチモーダルサンプル間の類似性を直接測定するために共通の表現を学習する。
既存のCMR法の多くは、ペアでマルチモーダルサンプルを仮定し、共通表現を学習するために共同トレーニングを採用し、CMRの柔軟性を制限している。
CMRの柔軟性を向上させるために、各モードごとに独立したトレーニング戦略を採用する方法もあるが、ランダムに初期化された直交行列を用いて表現学習を誘導する手法は、クラス間サンプルが互いに独立であると考え、サンプル表現と接地構造ラベル間の意味的アライメントの可能性を制限するため、最適ではない。
これらの問題に対処するために,我々はDep Reversible Consistency Learning (DRCL) と呼ばれる,クロスモーダル検索のための新しい手法を提案する。
DRCLには2つのコアモジュールがある: \ie Selective Prior Learning (SPL) と Reversible Semantic Consistency Learning (RSC) である。
より具体的には、SPLはまず各モダリティの変換重み行列を学習し、品質スコアに基づいて最良のものを選択する。
次に、RCCは、事前の一般化逆行列によりサンプルセマンティックラベルから潜在的モダリティ不変表現をリキャストするために、Modality-invariant Representation Recasting Mechanism (MRR) を用いる。
ラベルにはモーダルな情報がないため、表現学習を誘導するためにrecast機能を利用することで、可能な限りセマンティックな一貫性を維持することができる。
さらに、RCCに機能拡張機構(FA)を導入し、多様性のためにより広範なデータ分布について学習することを奨励する。
最後に、広く使われている5つのデータセットと15の最先端ベースラインとの比較により、DRCLの有効性と優位性を実証した。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Generalized Deep Learning-based Proximal Gradient Descent for MR
Reconstruction [3.128676265663467]
物理フォワードモデルのデータの一貫性は逆問題、特にMR画像再構成において重要である。
深層学習に基づく近位勾配降下法を提案し,前向きモデルとは独立な正規化項としてネットワークを用いた。
この1回の事前訓練正則化はMR取得の異なる設定に適用され、ピーク信号-雑音比の3dB改善を示す従来のL1正則化と比較された。
論文 参考訳(メタデータ) (2022-11-30T10:31:06Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Federated Representation Learning via Maximal Coding Rate Reduction [109.26332878050374]
本稿では,複数のクライアントに分散したデータセットから低次元表現を学習する手法を提案する。
提案手法はFLOWと呼ばれ, MCR2を選択の対象とし, その結果, クラス間判別とクラス内圧縮の両方が可能な表現が得られた。
論文 参考訳(メタデータ) (2022-10-01T15:43:51Z) - A Unifying Multi-sampling-ratio CS-MRI Framework With Two-grid-cycle
Correction and Geometric Prior Distillation [7.643154460109723]
本稿では,モデルベースと深層学習に基づく手法の利点を融合して,深層展開型マルチサンプリング比CS-MRIフレームワークを提案する。
マルチグリッドアルゴリズムにインスパイアされ、まずCS-MRIに基づく最適化アルゴリズムを補正蒸留方式に組み込む。
各段の圧縮サンプリング比から適応的なステップ長と雑音レベルを学習するために条件モジュールを用いる。
論文 参考訳(メタデータ) (2022-05-14T13:36:27Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - An Optimization-Based Meta-Learning Model for MRI Reconstruction with
Diverse Dataset [4.9259403018534496]
メタラーニングフレームワークを用いた一般化可能なMRI再構成モデルを構築した。
提案するネットワークは,学習者適応モデルを用いて正規化関数を学習する。
メタトレーニング後および半減期における未確認課題の即時訓練の結果を検証した。
論文 参考訳(メタデータ) (2021-10-02T03:21:52Z) - Scalable Deep Compressive Sensing [43.92187349325869]
既存のディープラーニング手法の多くは、異なるサブサンプリング比率のために異なるモデルをトレーニングする。
本研究では,拡張性深部圧縮センシング(SDCS)と呼ばれるフレームワークを開発し,既存のすべてのエンドツーエンド学習モデルの拡張性サンプリングと再構成を行う。
実験の結果,SDCSを用いたモデルでは,良好な性能を維持しながら構造を変更せずにSSRを達成でき,SDCSは他のSSR法よりも優れていた。
論文 参考訳(メタデータ) (2021-01-20T08:42:50Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。