論文の概要: Selectively Hard Negative Mining for Alleviating Gradient Vanishing in
Image-Text Matching
- arxiv url: http://arxiv.org/abs/2303.00181v1
- Date: Wed, 1 Mar 2023 02:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 16:19:57.444520
- Title: Selectively Hard Negative Mining for Alleviating Gradient Vanishing in
Image-Text Matching
- Title(参考訳): 画像テキストマッチングにおける勾配消失緩和のための選択的に硬い負のマイニング
- Authors: Zheng Li, Caili Guo, Xin Wang, Zerun Feng, Zhongtian Du
- Abstract要約: 既存の画像テキストマッチング(ITM)モデルのほとんどは、トレーニング開始時に消失する勾配に悩まされている。
本稿では, 選択的に負のサンプルをマイニングするかを選択するSelHN(SelHN)戦略を提案する。
SelHNは既存のIMMモデルにプラグイン・アンド・プレイすることで、より良いトレーニング動作を提供できる。
- 参考スコア(独自算出の注目度): 15.565068934153983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a series of Image-Text Matching (ITM) methods achieve impressive
performance. However, we observe that most existing ITM models suffer from
gradients vanishing at the beginning of training, which makes these models
prone to falling into local minima. Most ITM models adopt triplet loss with
Hard Negative mining (HN) as the optimization objective. We find that
optimizing an ITM model using only the hard negative samples can easily lead to
gradient vanishing. In this paper, we derive the condition under which the
gradient vanishes during training. When the difference between the positive
pair similarity and the negative pair similarity is close to 0, the gradients
on both the image and text encoders will approach 0. To alleviate the gradient
vanishing problem, we propose a Selectively Hard Negative Mining (SelHN)
strategy, which chooses whether to mine hard negative samples according to the
gradient vanishing condition. SelHN can be plug-and-play applied to existing
ITM models to give them better training behavior. To further ensure the
back-propagation of gradients, we construct a Residual Visual Semantic
Embedding model with SelHN, denoted as RVSE++. Extensive experiments on two ITM
benchmarks demonstrate the strength of RVSE++, achieving state-of-the-art
performance.
- Abstract(参考訳): 近年,画像テキストマッチング(ITM)手法が注目されている。
しかし,既存のIMMモデルのほとんどは,トレーニング開始時に消失する勾配に悩まされているため,これらのモデルが局所的なミニマに陥りやすい。
ほとんどのIMMモデルは最適化の目的としてハード負鉱業(HN)で三重項損失を採用する。
強い負のサンプルのみを用いてIMMモデルを最適化することは、容易に勾配の消滅につながる。
本稿では,トレーニング中に勾配が消失する条件を導出する。
正の対の類似度と負の対の類似度との差が 0 に近い場合、画像とテキストのエンコーダの勾配は 0 に近づく。
勾配消滅問題を緩和するために,勾配消滅条件に応じて硬陰性試料をマイニングするかを選択するSelHN(Selectively Hard Negative Mining)戦略を提案する。
SelHNは既存のIMMモデルにプラグイン・アンド・プレイすることで、より良いトレーニング動作を提供できる。
勾配のバックプロパゲーションをより確実にするために, RVSE++ と表記される SelHN を用いた残差ビジュアルセマンティック埋め込みモデルを構築した。
2つのIMMベンチマークでの大規模な実験は、RVSE++の強みを示し、最先端のパフォーマンスを達成する。
関連論文リスト
- Characterizing Model Robustness via Natural Input Gradients [37.97521090347974]
自然例のみのモデル入力に対して勾配を正則化するという驚くべき効果を示す。
ImageNet-1kでは、グラディエントノルムトレーニングは最先端のPGD-3(52%対56%)の性能を90%以上達成し、複雑な敵の最適化なしに最先端の60%のコストしか使用していない。
論文 参考訳(メタデータ) (2024-09-30T09:41:34Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - Understanding Collapse in Non-Contrastive Learning [122.2499276246997]
モデルがデータセットサイズに対して小さすぎる場合,SimSiam表現が部分次元崩壊することを示す。
本稿では,この崩壊の度合いを計測し,微調整やラベルを使わずに下流のタスク性能を予測できる指標を提案する。
論文 参考訳(メタデータ) (2022-09-29T17:59:55Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Score-based diffusion models for accelerated MRI [35.3148116010546]
本研究では,画像中の逆問題を容易に解けるような条件分布からデータをサンプリングする方法を提案する。
我々のモデルは、訓練のためにのみ等級画像を必要とするが、複雑な値のデータを再構成することができ、さらに並列画像まで拡張できる。
論文 参考訳(メタデータ) (2021-10-08T08:42:03Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z) - Sharpness-Aware Minimization for Efficiently Improving Generalization [36.87818971067698]
本稿では,損失値と損失シャープネスを同時に最小化する新しい効果的な手法を提案する。
シャープネス・アウェアの最小化(SAM)は、一様損失の少ない地区にあるパラメータを求める。
SAMは様々なベンチマークデータセットのモデル一般化を改善することを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-10-03T19:02:10Z) - SCE: Scalable Network Embedding from Sparsest Cut [20.08464038805681]
大規模ネットワーク埋め込みは、教師なしの方法で各ノードの潜在表現を学習することである。
このような対照的な学習手法の成功の鍵は、正と負のサンプルを引き出す方法である。
本稿では, 負のサンプルのみを用いた教師なしネットワーク埋め込みのためのSCEを提案する。
論文 参考訳(メタデータ) (2020-06-30T03:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。