Fugu-MT 論文翻訳(概要): Reducing Predictive Feature Suppression in Resource-Constrained Contrastive Image-Caption Retrieval

論文の概要: Reducing Predictive Feature Suppression in Resource-Constrained Contrastive Image-Caption Retrieval

arxiv url: http://arxiv.org/abs/2204.13382v2
Date: Tue, 18 Apr 2023 13:47:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 19:00:31.750823
Title: Reducing Predictive Feature Suppression in Resource-Constrained Contrastive Image-Caption Retrieval
Title（参考訳）: 資源拘束型コントラスト画像検索における予測特徴量抑圧の低減
Authors: Maurits Bleeker, Andrew Yates, Maarten de Rijke
Abstract要約: 我々は、リソース制約のあるICR手法における予測的特徴抑圧を減らすアプローチを提案する:潜在目標デコーディング(LTD) LTDは、汎用文エンコーダの潜時空間で入力キャプションを再構成し、画像及びキャプションエンコーダが予測的特徴を抑制するのを防止する。実験の結果,入力空間における入力キャプションの再構成とは異なり,LTDはリコール@k,r精度,nDCGスコアを高くすることで,予測的特徴抑制を低減できることがわかった。
参考スコア（独自算出の注目度）: 65.33981533521207
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To train image-caption retrieval (ICR) methods, contrastive loss functions are a common choice for optimization functions. Unfortunately, contrastive ICR methods are vulnerable to predictive feature suppression. Predictive features are features that correctly indicate the similarity between a query and a candidate item. However, in the presence of multiple predictive features during training, encoder models tend to suppress redundant predictive features, since these features are not needed to learn to discriminate between positive and negative pairs. While some predictive features are redundant during training, these features might be relevant during evaluation. We introduce an approach to reduce predictive feature suppression for resource-constrained ICR methods: latent target decoding (LTD). We add an additional decoder to the contrastive ICR framework, to reconstruct the input caption in a latent space of a general-purpose sentence encoder, which prevents the image and caption encoder from suppressing predictive features. We implement the LTD objective as an optimization constraint, to ensure that the reconstruction loss is below a bound value while primarily optimizing for the contrastive loss. Importantly, LTD does not depend on additional training data or expensive (hard) negative mining strategies. Our experiments show that, unlike reconstructing the input caption in the input space, LTD reduces predictive feature suppression, measured by obtaining higher recall@k, r-precision, and nDCG scores than a contrastive ICR baseline. Moreover, we show that LTD should be implemented as an optimization constraint instead of a dual optimization objective. Finally, we show that LTD can be used with different contrastive learning losses and a wide variety of resource-constrained ICR methods.
Abstract（参考訳）: 画像キャプチャ検索(icr)法を訓練するには、コントラスト損失関数が最適関数の共通の選択である。残念なことに、対照的なICR法は予測的特徴抑制に弱い。予測機能はクエリと候補項目の類似性を正確に示す機能である。しかしながら、トレーニング中に複数の予測的特徴が存在する場合、エンコーダモデルは、正と負のペアを区別する必要がないため、冗長な予測的特徴を抑制する傾向がある。いくつかの予測機能はトレーニング中に冗長であるが、これらの機能は評価中に関連があるかもしれない。本稿では,リソース制約のある ICR 手法における予測的特徴抑圧の削減手法を提案する。汎用文エンコーダの潜在空間における入力キャプションを再構成するため、コントラストicrフレームワークに新たなデコーダを追加することにより、画像およびキャプションエンコーダが予測特徴を抑圧するのを防止する。 LTDの目的を最適化制約として実装し、主にコントラスト損失を最適化しながら、復元損失が境界値以下であることを保証する。重要なことは、LTDは追加の訓練データや高価な(堅い)負の採掘戦略に依存しない。実験の結果,入力空間における入力キャプションの再構築とは違って,リコール@k,r精度,nDCGのスコアを対照的なICRベースラインよりも高めることにより,予測的特徴抑制を低減できることがわかった。さらに,2つの最適化目的ではなく,最適化制約としてLTDを実装すべきであることを示す。最後に, ltd は異なるコントラスト学習損失と多種多様なリソース制約型 icr 手法で使用できることを示した。

関連論文リスト

Beyond Linearity: Squeeze-and-Recalibrate Blocks for Few-Shot Whole Slide Image Classification [35.6247241174615]
Squeeze-and-Recalibrate (SR) ブロックを提案する。 SRブロックが任意の精度で任意の線形写像を近似できることを理論的に保証する。我々のSR-MILモデルは、パラメータが大幅に少なく、アーキテクチャ上の変更も不要ながら、先行メソッドよりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-21T13:24:47Z)
EnsLoss: Stochastic Calibrated Loss Ensembles for Preventing Overfitting in Classification [1.3778851745408134]
経験的リスク最小化フレームワーク内で損失関数を結合する新しいアンサンブル手法,すなわちEnsLossを提案する。まず、損失のCC条件を損失導関数に変換し、明示的な損失関数の必要性を回避した。理論的には、我々のアプローチの統計的一貫性を確立し、その利点に関する洞察を提供する。
論文参考訳（メタデータ） (2024-09-02T02:40:42Z)
Towards Cross-View-Consistent Self-Supervised Surround Depth Estimation [9.569646683579899]
連続画像からの自己監督下周深度推定は経済的な代替手段を提供する。従来のSSSDE法では、画像間で情報を融合する異なるメカニズムが提案されているが、それらのいくつかは、クロスビュー制約を明示的に考慮している。本稿では,SSSDEのクロスビュー一貫性を高めるために,効率的で一貫したポーズ推定設計と2つの損失関数を提案する。
論文参考訳（メタデータ） (2024-07-04T16:29:05Z)
Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2024-07-03T13:44:20Z)
Deep Implicit Optimization enables Robust Learnable Features for Deformable Image Registration [20.34181966545357]
既存のDLIR(Deep Learning in Image Registration)メソッドは、最適化をディープネットワークの層として明示的に組み込むものではない。提案手法は,ディープネットワークの層として最適化を明示的に取り入れることで,統計的学習と最適化のギャップを埋めることを示す。我々のフレームワークは、ドメイン内のデータセットで優れたパフォーマンスを示し、ドメインシフトに依存しない。
論文参考訳（メタデータ） (2024-06-11T15:28:48Z)
Distortion-Disentangled Contrastive Learning [13.27998440853596]
本稿では、DCL(Distortion-Disentangled Contrastive Learning)とDDL(Distortion-Disentangled Loss)という新しいPOCLフレームワークを提案する。我々のアプローチは、モデルと特徴ストリーム内のDVRを明示的に切り離し、活用して、全体的な表現利用効率、堅牢性、表現能力を改善する最初の方法です。
論文参考訳（メタデータ） (2023-03-09T06:33:31Z)
Positive-Negative Equal Contrastive Loss for Semantic Segmentation [8.664491798389662]
従来の作業では、グローバルコンテキストを効果的に抽出し集約するために、プラグアンドプレイモジュールと構造的損失を設計するのが一般的だった。そこで我々は, 正負の負の正の負の負の正の負の正の負の正の負の負の負の正の負の負の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の総合的な実験を行い、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-07-04T13:51:29Z)
Efficient and Differentiable Conformal Prediction with General Function Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文参考訳（メタデータ） (2022-02-22T18:37:23Z)
Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文参考訳（メタデータ） (2022-02-09T18:48:02Z)
Efficient Deep Feature Calibration for Cross-Modal Joint Embedding Learning [14.070841236184439]
本稿では,テキスト画像のクロスモーダルな関節埋め込みを効果的に学習するための2相深い特徴キャリブレーションフレームワークを提案する。プリプロセッシングでは、生のテキストイメージ入力データから派生したセマンティックコンテキスト特徴と、深い特徴工学を組み合わせることで、深い特徴キャリブレーションを行う。組込み学習において,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数の最適化により,深い特徴校正を行う。
論文参考訳（メタデータ） (2021-08-02T08:16:58Z)
Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文参考訳（メタデータ） (2021-04-06T07:24:58Z)
Sparse Perturbations for Improved Convergence in Stochastic Zeroth-Order Optimization [10.907491258280608]
ゼロオーダー(SZO)手法への関心は最近、深いニューラルネットワークに対する敵対的ブラックボックス攻撃のようなブラックボックス最適化シナリオで復活している。 SZO法は、ランダムな入力ポイントで目的関数を評価する能力のみを必要とする。本稿では,ランダム摂動の次元依存性を低減させるSZO最適化手法を提案する。
論文参考訳（メタデータ） (2020-06-02T16:39:37Z)
Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-05-21T06:11:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。