論文の概要: Dissecting Deep Metric Learning Losses for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2210.13188v1
- Date: Fri, 21 Oct 2022 06:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:46:55.460270
- Title: Dissecting Deep Metric Learning Losses for Image-Text Retrieval
- Title(参考訳): 画像テキスト検索のためのDeep Metric Learning Lossesの分離
- Authors: Hong Xuan, Xi Chen
- Abstract要約: VSE(Visual-Semantic Embedding)は、画像と言語モダリティの結合埋め込み空間を学習することにより、画像テキスト検索における一般的なアプローチである。
強負の鉱業による三重項損失は、ほとんどのVSE法において事実上の目標となっている。
我々は,既存のDML関数の勾配の組み合わせと重み付けを体系的に解析する,新しいグラディエントベースのObjective AnaLysisフレームワーク(textitGOAL)を提案する。
- 参考スコア(独自算出の注目度): 8.248111272824326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-Semantic Embedding (VSE) is a prevalent approach in image-text
retrieval by learning a joint embedding space between the image and language
modalities where semantic similarities would be preserved. The triplet loss
with hard-negative mining has become the de-facto objective for most VSE
methods. Inspired by recent progress in deep metric learning (DML) in the image
domain which gives rise to new loss functions that outperform triplet loss, in
this paper, we revisit the problem of finding better objectives for VSE in
image-text matching. Despite some attempts in designing losses based on
gradient movement, most DML losses are defined empirically in the embedding
space. Instead of directly applying these loss functions which may lead to
sub-optimal gradient updates in model parameters, in this paper we present a
novel Gradient-based Objective AnaLysis framework, or \textit{GOAL}, to
systematically analyze the combinations and reweighting of the gradients in
existing DML functions. With the help of this analysis framework, we further
propose a new family of objectives in the gradient space exploring different
gradient combinations. In the event that the gradients are not integrable to a
valid loss function, we implement our proposed objectives such that they would
directly operate in the gradient space instead of on the losses in the
embedding space. Comprehensive experiments have demonstrated that our novel
objectives have consistently improved performance over baselines across
different visual/text features and model frameworks. We also showed the
generalizability of the GOAL framework by extending it to other models using
triplet family losses including vision-language model with heavy cross-modal
interactions and have achieved state-of-the-art results on the image-text
retrieval tasks on COCO and Flick30K.
- Abstract(参考訳): VSE(Visual-Semantic Embedding)は、画像と言語間の共同埋め込み空間を学習し、意味的類似性を保存することで、画像テキスト検索における一般的なアプローチである。
強負の鉱業による三重項損失は、ほとんどのVSE法において事実上の目標となっている。
本稿では,画像領域における深部距離学習(DML)の最近の進歩に触発され,三重項損失を克服する新たな損失関数がもたらされた上で,画像テキストマッチングにおけるVSEのより良い目的を見出すという課題を再考する。
勾配運動に基づく損失の設計の試みにもかかわらず、ほとんどのDML損失は埋め込み空間において経験的に定義される。
本稿では,これらの損失関数を直接適用してモデルパラメータの最適勾配更新に導くのではなく,既存のdml関数における勾配の組み合わせと重み付けを体系的に解析する新しい勾配に基づく客観的解析フレームワークである \textit{goal} を提案する。
この分析フレームワークの助けを借りて、異なる勾配の組み合わせを探索する勾配空間における目的の新しいファミリーを提案する。
勾配が有効な損失関数に積分できない場合、我々は、埋め込み空間の損失ではなく、勾配空間で直接操作するように提案した目的を実装した。
総合的な実験により、新しい目的が、さまざまなビジュアル/テキスト機能とモデルフレームワークのベースラインよりも一貫してパフォーマンスが向上していることが示されました。
また,COCOおよびFlick30K上の画像テキスト検索タスクにおいて,多言語間相互作用を伴う視覚言語モデルを含む3重項家族損失を用いて,GOALフレームワークを他のモデルに拡張することにより,その一般化可能性を示した。
関連論文リスト
- Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Bridging the Gap: Multi-Level Cross-Modality Joint Alignment for
Visible-Infrared Person Re-Identification [41.600294816284865]
Visible-Infrared Person Re-IDentification (VI-ReID)は、歩行者の画像を可視カメラと赤外線カメラに合わせることを目的としている。
モダリティギャップを解決するため、既存の主流手法では、画像検索タスクを画像分類タスクに変換する学習パラダイムを採用している。
モーダリティと目的レベルのギャップを埋める,単純かつ効果的な多層クロスモーダリティ共同アライメント(MCJA)を提案する。
論文 参考訳(メタデータ) (2023-07-17T08:24:05Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information
Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。
既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。
本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:09:39Z) - Dissecting the impact of different loss functions with gradient surgery [7.001832294837659]
ペアワイズ・ロス(英: Pair-wise Los)とは、損失関数を最適化することで意味的な埋め込みを学習するメトリクス学習のアプローチである。
ここでは、これらの損失関数の勾配を、アンカー正対とアンカー負対の相対的特徴位置の押し方に関連する成分に分解する。
論文 参考訳(メタデータ) (2022-01-27T03:55:48Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - InverseForm: A Loss Function for Structured Boundary-Aware Segmentation [80.39674800972182]
逆変換ネットワークを用いたセマンティックセグメンテーションのための新しい境界認識損失項を提案する。
このプラグイン損失項は境界変換の捕捉におけるクロスエントロピー損失を補完する。
室内および屋外のセグメンテーションベンチマークにおける損失関数の定量的および定性的効果を解析した。
論文 参考訳(メタデータ) (2021-04-06T18:52:45Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。