論文の概要: Two-Stage Triplet Loss Training with Curriculum Augmentation for
Audio-Visual Retrieval
- arxiv url: http://arxiv.org/abs/2310.13451v1
- Date: Fri, 20 Oct 2023 12:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:05:38.750118
- Title: Two-Stage Triplet Loss Training with Curriculum Augmentation for
Audio-Visual Retrieval
- Title(参考訳): 楽曲検索のためのカリキュラム強化による2段階三重項損失訓練
- Authors: Donghuo Zeng and Kazushi Ikeda
- Abstract要約: クロス検索モデルは堅牢な埋め込み空間を学習する。
この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを導入する。
本稿では,モデルの学習過程をセミハードからハードトリップにガイドする2段階の学習パラダイムを提案する。
- 参考スコア(独自算出の注目度): 3.164991885881342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cross-modal retrieval model leverages the potential of triple loss
optimization to learn robust embedding spaces. However, existing methods often
train these models in a singular pass, overlooking the distinction between
semi-hard and hard triples in the optimization process. The oversight of not
distinguishing between semi-hard and hard triples leads to suboptimal model
performance. In this paper, we introduce a novel approach rooted in curriculum
learning to address this problem. We propose a two-stage training paradigm that
guides the model's learning process from semi-hard to hard triplets. In the
first stage, the model is trained with a set of semi-hard triplets, starting
from a low-loss base. Subsequently, in the second stage, we augment the
embeddings using an interpolation technique. This process identifies potential
hard negatives, alleviating issues arising from high-loss functions due to a
scarcity of hard triples. Our approach then applies hard triplet mining in the
augmented embedding space to further optimize the model. Extensive experimental
results conducted on two audio-visual datasets show a significant improvement
of approximately 9.8% in terms of average Mean Average Precision (MAP) over the
current state-of-the-art method, MSNSCA, for the Audio-Visual Cross-Modal
Retrieval (AV-CMR) task on the AVE dataset, indicating the effectiveness of our
proposed method.
- Abstract(参考訳): クロスモーダル検索モデルは、3重損失最適化の可能性を活用し、堅牢な埋め込み空間を学習する。
しかし、既存の手法では、最適化過程における半硬三重項と硬三重項の区別を見渡して、これらのモデルを特異なパスで訓練することが多い。
半硬三重項と硬三重項を区別しないという見落としは、準最適モデル性能をもたらす。
本稿では,この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを提案する。
モデルの学習プロセスを半ハードからハードトリプレットへ導く2段階のトレーニングパラダイムを提案する。
最初の段階では、モデルは低損失のベースから始まる半硬な三つ子で訓練される。
その後,第2段階において補間法を用いて埋め込みを増強する。
このプロセスは潜在的なハードネガティブを識別し、ハードトリプルの不足による高損失関数に起因する問題を緩和する。
提案手法は, モデルをさらに最適化するために, 拡張埋め込み空間にハードトリプルトマイニングを適用する。
2つの視聴覚データセットで行った広範囲な実験により、avデータセット上での視聴覚横断的検索(av-cmr)タスクにおいて、現在の最先端法であるmsnscaよりも平均平均平均精度(map)が約9.8%向上し、提案手法の有効性が示された。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。
第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。
第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。
我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文 参考訳(メタデータ) (2024-08-05T05:33:59Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Training-based Model Refinement and Representation Disagreement for
Semi-Supervised Object Detection [8.096382537967637]
半教師付き物体検出(SSOD)は、既存の物体検出器の性能と一般化を改善することを目的としている。
近年のSSOD法は, 古典的指数移動平均 (EMA) 戦略を用いて, モデル改良の不十分さが問題となっている。
本稿では,新しいトレーニングベースモデル改良段階と,シンプルで効果的な表現不一致(RD)戦略を提案する。
論文 参考訳(メタデータ) (2023-07-25T18:26:22Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast
and Accurate Inference on Missing Modality Sequences [32.42505193560884]
本稿では,MM-Align という新しい手法を提案する。
MM-Alignは、モダリティシーケンス間のアライメントのダイナミクスをキャプチャし、模倣することを学ぶ。
提案手法は, より正確で高速な推定を行い, 種々の不足条件下での過度適合を緩和することができる。
論文 参考訳(メタデータ) (2022-10-23T17:44:56Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文 参考訳(メタデータ) (2021-12-15T08:36:44Z) - LoOp: Looking for Optimal Hard Negative Embeddings for Deep Metric
Learning [17.571160136568455]
埋め込み空間における最適強陰性(LoOp)を求める新しい手法を提案する。
マイニング法とは違って, 最適硬質負を計算するために, 組込みの組込み間の空間全体を考慮した。
論文 参考訳(メタデータ) (2021-08-20T19:21:33Z) - A novel three-stage training strategy for long-tailed classification [0.0]
長期分布データセットは、ディープラーニングに基づく分類モデルにとって大きな課題となる。
我々は,SAR画像データセットを長期分布で処理するための優れた3段階トレーニング戦略を確立した。
論文 参考訳(メタデータ) (2021-04-20T08:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。