論文の概要: SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization
- arxiv url: http://arxiv.org/abs/2509.21033v1
- Date: Thu, 25 Sep 2025 11:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.872417
- Title: SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization
- Title(参考訳): SupCLAP:サポートベクトル正規化による音声テキストコントラスト学習における最適化軌道ドリフトの制御
- Authors: Jiehui Luo, Yuguo Yin, Yuxin Xie, Jinghan Ru, Xianwei Zhuang, Minghua He, Aofan Liu, Zihan Xiong, Dongchao Yang,
- Abstract要約: 対照的な学習における負のサンプルから押し力の垂直成分を制御するための支援ベクトル正規化を提案する。
提案手法は,分類,単言語検索,多言語検索において,InfoNCEやSigLIPの損失など,広く使用されているベースラインを超えていることを示す。
- 参考スコア(独自算出の注目度): 20.743065324246825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive language-audio pretraining, which aims to unify multimodal representations in a shared embedding space, serves as a cornerstone for building a wide range of applications, from cross-modal retrieval to cutting-edge multimodal large language models. However, we find that the perpendicular component of the pushing force from negative samples in contrastive learning is a double-edged sword: it contains rich supplementary information from negative samples, yet its unconstrained nature causes optimization trajectory drift and training instability. To address this, we propose Support Vector Regularization (SVR), a method that introduces an auxiliary support vector to control this perpendicular component, aiming to harness its rich information while mitigating the associated trajectory drift. The efficacy of SVR is critically governed by its semantic radius, for which we explore two unsupervised modeling strategies: direct parameterization and an adaptive radius predictor module enhanced with constraints to improve its predicting accuracy. Extensive experimental results demonstrate that our method surpasses widely used baselines like InfoNCE and SigLIP loss across classification, monolingual retrieval, and multilingual retrieval on standard audio-text datasets. Both the theoretical analysis and the experimental results on optimizing trajectory drift validate the correctness and effectiveness of our SVR method.
- Abstract(参考訳): 共通埋め込み空間におけるマルチモーダル表現の統合を目的としたコントラスト言語-オーディオ事前学習は、クロスモーダル検索から最先端のマルチモーダル大言語モデルに至るまで、幅広いアプリケーションを構築するための基盤となる。
しかし, 負のサンプルからの押し力の垂直成分は, 負のサンプルからの豊富な補足情報を含んでいるが, その制約のない性質は, 最適化軌道のドリフトや訓練不安定を生じさせる。
そこで我々は,この垂直成分を制御する補助的支持ベクトルを導入し,関連する軌道ドリフトを緩和しながら,その豊富な情報を活用することを目的とした支援ベクトル正規化(SVR)を提案する。
SVRの有効性はセマンティック・半径によって決定的に制御され、直接パラメータ化と適応半径予測モジュールの2つの非教師なしモデル戦略を探索し、その予測精度を向上させる。
大規模な実験結果から,本手法は標準音声テキストデータセットの分類,モノリンガル検索,多言語検索などにおいて,InfoNCE や SigLIP の損失など,広く使用されているベースラインを超えていることが示された。
軌道ドリフトの最適化に関する理論的解析と実験結果の両方が,SVR法の有効性と妥当性を検証した。
関連論文リスト
- iEBAKER: Improved Remote Sensing Image-Text Retrieval Framework via Eliminate Before Align and Keyword Explicit Reasoning [80.44805667907612]
iEBAKERは、弱い相関のサンプルペアをフィルタリングする革新的な戦略である。
SAR(Sort After Reversed Retrieval)戦略の代替として,SAR(Sort After Retrieval)戦略を導入する。
キーワード明示型推論(KER)モジュールを組み込んで、微妙なキー概念の区別による有益な影響を促進する。
論文 参考訳(メタデータ) (2025-04-08T03:40:19Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。