論文の概要: Keep the Caption Information: Preventing Shortcut Learning in
Contrastive Image-Caption Retrieval
- arxiv url: http://arxiv.org/abs/2204.13382v1
- Date: Thu, 28 Apr 2022 09:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 12:49:31.868517
- Title: Keep the Caption Information: Preventing Shortcut Learning in
Contrastive Image-Caption Retrieval
- Title(参考訳): キャプション情報を保持する:コントラスト画像検索における近道学習の防止
- Authors: Maurits Bleeker, Andrew Yates, Maarten de Rijke
- Abstract要約: ICRタスクのショートカット特徴表現を削減する手法を提案する。
入力キャプションを再構築する代わりに,字幕の意味を潜在空間で復号する。
実験の結果,入力キャプションの再構築とは異なり,LTDはショートカット学習を減らし,一般化性を向上させることがわかった。
- 参考スコア(独自算出の注目度): 65.33981533521207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To train image-caption retrieval (ICR) methods, contrastive loss functions
are a common choice for optimization functions. Unfortunately, contrastive ICR
methods are vulnerable to learning shortcuts: decision rules that perform well
on the training data but fail to transfer to other testing conditions. We
introduce an approach to reduce shortcut feature representations for the ICR
task: latent target decoding (LTD). We add an additional decoder to the
learning framework to reconstruct the input caption, which prevents the image
and caption encoder from learning shortcut features. Instead of reconstructing
input captions in the input space, we decode the semantics of the caption in a
latent space. We implement the LTD objective as an optimization constraint, to
ensure that the reconstruction loss is below a threshold value while primarily
optimizing for the contrastive loss. Importantly, LTD does not depend on
additional training data or expensive (hard) negative mining strategies. Our
experiments show that, unlike reconstructing the input caption, LTD reduces
shortcut learning and improves generalizability by obtaining higher recall@k
and r-precision scores. Additionally, we show that the evaluation scores
benefit from implementing LTD as an optimization constraint instead of a dual
loss.
- Abstract(参考訳): 画像キャプチャ検索(icr)法を訓練するには、コントラスト損失関数が最適関数の共通の選択である。
残念ながら、対照的なICRメソッドは、トレーニングデータでうまく機能するが、他のテスト条件に移行できない決定ルールという、学習ショートカットに対して脆弱である。
ICRタスクのショートカット特徴表現を減らすアプローチとして,潜在目標デコーディング(LTD)を提案する。
我々は、入力キャプションを再構築する学習フレームワークにデコーダを追加し、画像とキャプションエンコーダがショートカット機能を学ぶのを防ぐ。
入力空間に入力キャプションを再構成する代わりに,キャプションの意味を潜在空間でデコードする。
LTDの目的を最適化制約として実装し、復元損失がしきい値以下であることを保証するとともに、主にコントラスト損失を最適化する。
重要なことは、LTDは追加の訓練データや高価な(堅い)負の採掘戦略に依存しない。
入力キャプションの再構築とは違って,LTD はショートカット学習を削減し,リコール@k と r-精度スコアを取得することで一般化性を向上させる。
さらに,2つの損失の代わりに最適化制約としてLTDを実装することにより,評価スコアが有用であることを示す。
関連論文リスト
- EnsLoss: Stochastic Calibrated Loss Ensembles for Preventing Overfitting in Classification [1.3778851745408134]
経験的リスク最小化フレームワーク内で損失関数を結合する新しいアンサンブル手法,すなわちEnsLossを提案する。
まず、損失のCC条件を損失導関数に変換し、明示的な損失関数の必要性を回避した。
理論的には、我々のアプローチの統計的一貫性を確立し、その利点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-09-02T02:40:42Z) - Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。
埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。
ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T13:44:20Z) - Distortion-Disentangled Contrastive Learning [13.27998440853596]
本稿では、DCL(Distortion-Disentangled Contrastive Learning)とDDL(Distortion-Disentangled Loss)という新しいPOCLフレームワークを提案する。
我々のアプローチは、モデルと特徴ストリーム内のDVRを明示的に切り離し、活用して、全体的な表現利用効率、堅牢性、表現能力を改善する最初の方法です。
論文 参考訳(メタデータ) (2023-03-09T06:33:31Z) - Positive-Negative Equal Contrastive Loss for Semantic Segmentation [8.664491798389662]
従来の作業では、グローバルコンテキストを効果的に抽出し集約するために、プラグアンドプレイモジュールと構造的損失を設計するのが一般的だった。
そこで我々は, 正負の負の正の負の負の正の負の正の負の正の負の負の負の正の負の負の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の
総合的な実験を行い、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-04T13:51:29Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Efficient Deep Feature Calibration for Cross-Modal Joint Embedding
Learning [14.070841236184439]
本稿では,テキスト画像のクロスモーダルな関節埋め込みを効果的に学習するための2相深い特徴キャリブレーションフレームワークを提案する。
プリプロセッシングでは、生のテキストイメージ入力データから派生したセマンティックコンテキスト特徴と、深い特徴工学を組み合わせることで、深い特徴キャリブレーションを行う。
組込み学習において,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数の最適化により,深い特徴校正を行う。
論文 参考訳(メタデータ) (2021-08-02T08:16:58Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z) - Sparse Perturbations for Improved Convergence in Stochastic Zeroth-Order
Optimization [10.907491258280608]
ゼロオーダー(SZO)手法への関心は最近、深いニューラルネットワークに対する敵対的ブラックボックス攻撃のようなブラックボックス最適化シナリオで復活している。
SZO法は、ランダムな入力ポイントで目的関数を評価する能力のみを必要とする。
本稿では,ランダム摂動の次元依存性を低減させるSZO最適化手法を提案する。
論文 参考訳(メタデータ) (2020-06-02T16:39:37Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。