Fugu-MT 論文翻訳(概要): Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval

論文の概要: Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval

arxiv url: http://arxiv.org/abs/2310.13451v1
Date: Fri, 20 Oct 2023 12:35:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 23:05:38.750118
Title: Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval
Title（参考訳）: 楽曲検索のためのカリキュラム強化による2段階三重項損失訓練
Authors: Donghuo Zeng and Kazushi Ikeda
Abstract要約: クロス検索モデルは堅牢な埋め込み空間を学習する。この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを導入する。本稿では,モデルの学習過程をセミハードからハードトリップにガイドする2段階の学習パラダイムを提案する。
参考スコア（独自算出の注目度）: 3.164991885881342
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The cross-modal retrieval model leverages the potential of triple loss optimization to learn robust embedding spaces. However, existing methods often train these models in a singular pass, overlooking the distinction between semi-hard and hard triples in the optimization process. The oversight of not distinguishing between semi-hard and hard triples leads to suboptimal model performance. In this paper, we introduce a novel approach rooted in curriculum learning to address this problem. We propose a two-stage training paradigm that guides the model's learning process from semi-hard to hard triplets. In the first stage, the model is trained with a set of semi-hard triplets, starting from a low-loss base. Subsequently, in the second stage, we augment the embeddings using an interpolation technique. This process identifies potential hard negatives, alleviating issues arising from high-loss functions due to a scarcity of hard triples. Our approach then applies hard triplet mining in the augmented embedding space to further optimize the model. Extensive experimental results conducted on two audio-visual datasets show a significant improvement of approximately 9.8% in terms of average Mean Average Precision (MAP) over the current state-of-the-art method, MSNSCA, for the Audio-Visual Cross-Modal Retrieval (AV-CMR) task on the AVE dataset, indicating the effectiveness of our proposed method.
Abstract（参考訳）: クロスモーダル検索モデルは、3重損失最適化の可能性を活用し、堅牢な埋め込み空間を学習する。しかし、既存の手法では、最適化過程における半硬三重項と硬三重項の区別を見渡して、これらのモデルを特異なパスで訓練することが多い。半硬三重項と硬三重項を区別しないという見落としは、準最適モデル性能をもたらす。本稿では,この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを提案する。モデルの学習プロセスを半ハードからハードトリプレットへ導く2段階のトレーニングパラダイムを提案する。最初の段階では、モデルは低損失のベースから始まる半硬な三つ子で訓練される。その後,第2段階において補間法を用いて埋め込みを増強する。このプロセスは潜在的なハードネガティブを識別し、ハードトリプルの不足による高損失関数に起因する問題を緩和する。提案手法は, モデルをさらに最適化するために, 拡張埋め込み空間にハードトリプルトマイニングを適用する。 2つの視聴覚データセットで行った広範囲な実験により、avデータセット上での視聴覚横断的検索(av-cmr)タスクにおいて、現在の最先端法であるmsnscaよりも平均平均平均精度(map)が約9.8%向上し、提案手法の有効性が示された。

関連論文リスト

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文参考訳（メタデータ） (2025-05-19T15:43:10Z)
E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。 Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文参考訳（メタデータ） (2024-12-30T16:06:31Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。 3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文参考訳（メタデータ） (2024-11-04T16:46:53Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文参考訳（メタデータ） (2024-08-05T05:33:59Z)
Not All Steps are Equal: Efficient Generation with Progressive Diffusion Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
Training-based Model Refinement and Representation Disagreement for Semi-Supervised Object Detection [8.096382537967637]
半教師付き物体検出(SSOD)は、既存の物体検出器の性能と一般化を改善することを目的としている。近年のSSOD法は, 古典的指数移動平均 (EMA) 戦略を用いて, モデル改良の不十分さが問題となっている。本稿では,新しいトレーニングベースモデル改良段階と,シンプルで効果的な表現不一致(RD)戦略を提案する。
論文参考訳（メタデータ） (2023-07-25T18:26:22Z)
Scaling Multimodal Pre-Training via Cross-Modality Gradient Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。 CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文参考訳（メタデータ） (2022-11-03T18:12:32Z)
MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast and Accurate Inference on Missing Modality Sequences [32.42505193560884]
本稿では,MM-Align という新しい手法を提案する。 MM-Alignは、モダリティシーケンス間のアライメントのダイナミクスをキャプチャし、模倣することを学ぶ。提案手法は, より正確で高速な推定を行い, 種々の不足条件下での過度適合を緩和することができる。
論文参考訳（メタデータ） (2022-10-23T17:44:56Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。 DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文参考訳（メタデータ） (2021-12-15T08:36:44Z)
LoOp: Looking for Optimal Hard Negative Embeddings for Deep Metric Learning [17.571160136568455]
埋め込み空間における最適強陰性(LoOp)を求める新しい手法を提案する。マイニング法とは違って, 最適硬質負を計算するために, 組込みの組込み間の空間全体を考慮した。
論文参考訳（メタデータ） (2021-08-20T19:21:33Z)
A novel three-stage training strategy for long-tailed classification [0.0]
長期分布データセットは、ディープラーニングに基づく分類モデルにとって大きな課題となる。我々は,SAR画像データセットを長期分布で処理するための優れた3段階トレーニング戦略を確立した。
論文参考訳（メタデータ） (2021-04-20T08:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。