論文の概要: Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2507.12998v1
- Date: Thu, 17 Jul 2025 11:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.465169
- Title: Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning
- Title(参考訳): 微分インフォームドサンプル選択によるマルチモーダルコントラスト学習の高速化
- Authors: Zihua Zhao, Feng Hong, Mengxi Chen, Pengyi Chen, Benyuan Liu, Jiangchao Yao, Ya Zhang, Yanfeng Wang,
- Abstract要約: そこで本研究では,学習促進のための雑音対応を高精度かつ効率的に識別するDISSect法を提案する。
具体的には,雑音対応がコントラスト学習に与える影響を再考し,現在のモデルと過去のモデルとの相関関係の差が,サンプル品質の特徴づけに有益であることを示す。
- 参考スコア(独自算出の注目度): 35.359482937263145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable success of contrastive-learning-based multimodal models has been greatly driven by training on ever-larger datasets with expensive compute consumption. Sample selection as an alternative efficient paradigm plays an important direction to accelerate the training process. However, recent advances on sample selection either mostly rely on an oracle model to offline select a high-quality coreset, which is limited in the cold-start scenarios, or focus on online selection based on real-time model predictions, which has not sufficiently or efficiently considered the noisy correspondence. To address this dilemma, we propose a novel Differential-Informed Sample Selection (DISSect) method, which accurately and efficiently discriminates the noisy correspondence for training acceleration. Specifically, we rethink the impact of noisy correspondence on contrastive learning and propose that the differential between the predicted correlation of the current model and that of a historical model is more informative to characterize sample quality. Based on this, we construct a robust differential-based sample selection and analyze its theoretical insights. Extensive experiments on three benchmark datasets and various downstream tasks demonstrate the consistent superiority of DISSect over current state-of-the-art methods. Source code is available at: https://github.com/MediaBrain-SJTU/DISSect.
- Abstract(参考訳): 対照的な学習ベースのマルチモーダルモデルの顕著な成功は、高価な計算消費を持つより大規模なデータセットのトレーニングによって大きく推進されている。
代替の効率的なパラダイムとしてのサンプル選択は、トレーニングプロセスを加速するために重要な方向を担います。
しかし、近年のサンプル選択の進歩は、主に、コールドスタートシナリオに制限された高品質コアセットをオフラインで選択するためのオラクルモデルに依存しているか、あるいは、ノイズ対応を十分に、あるいは効率的に考慮していないリアルタイムモデル予測に基づくオンライン選択に焦点を当てている。
このジレンマに対処するために、トレーニングアクセラレーションのためのノイズ対応を正確かつ効率的に識別する新しい微分インフォームドサンプル選択法(DISSect)を提案する。
具体的には,雑音対応がコントラスト学習に与える影響を再考し,現在のモデルと過去のモデルとの相関関係の差が,サンプル品質の特徴づけに有益であることを示す。
これに基づいて,頑健な差分に基づくサンプル選択を構築し,その理論的知見を解析する。
3つのベンチマークデータセットと様々なダウンストリームタスクに対する大規模な実験は、現在の最先端手法よりもdisSectが一貫した優位性を示している。
ソースコードはhttps://github.com/MediaBrain-SJTU/DISSect.comで入手できる。
関連論文リスト
- Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。
既存の調査では、微調整フェーズの詳細な調査を見落としている。
特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文 参考訳(メタデータ) (2024-06-20T08:58:58Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Online simulator-based experimental design for cognitive model selection [74.76661199843284]
本稿では,抽出可能な確率を伴わない計算モデルを選択する実験設計手法BOSMOSを提案する。
シミュレーション実験では,提案手法により,既存のLFI手法に比べて最大2桁の精度でモデルを選択することができることを示した。
論文 参考訳(メタデータ) (2023-03-03T21:41:01Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Reinforced Data Sampling for Model Diversification [15.547681142342846]
本稿では,データを適切にサンプリングする方法を学ぶための新しいReinforced Data Smpling (RDS)法を提案する。
モデルダイバーシフィケーションの最適化問題である$delta-div$をデータサンプリングで定式化し,モデルダイバーシフィケーションを注入することで学習ポテンシャルと最適アロケーションを最大化する。
モデル多様化のためのトレーニング可能なサンプリングは,各種機械学習タスクの潜在能力を追求する競技組織,研究者,さらには開始者にとって有用であることが示唆された。
論文 参考訳(メタデータ) (2020-06-12T11:46:13Z) - Progressive Multi-Stage Learning for Discriminative Tracking [25.94944743206374]
本稿では,頑健な視覚追跡のためのサンプル選択の段階的多段階最適化ポリシを用いた共同識別学習手法を提案する。
提案手法は, 時間重み付き, 検出誘導型セルフペースト学習戦略により, 簡単なサンプル選択を行う。
ベンチマークデータセットの実験では、提案した学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-04-01T07:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。