論文の概要: Bagging-Based Model Merging for Robust General Text Embeddings
- arxiv url: http://arxiv.org/abs/2602.05787v1
- Date: Thu, 05 Feb 2026 15:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.014115
- Title: Bagging-Based Model Merging for Robust General Text Embeddings
- Title(参考訳): ロバストな汎用テキスト埋め込みのためのバッグベースモデルマージ
- Authors: Hengran Zhang, Keping Bi, Jiafeng Guo, Jiaming Zhang, Wenbo Yang, Daiting Shi, Xueqi Cheng,
- Abstract要約: 汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
- 参考スコア(独自算出の注目度): 73.51674133699196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose text embedding models underpin a wide range of NLP and information retrieval applications, and are typically trained on large-scale multi-task corpora to encourage broad generalization. However, it remains unclear how different multi-task training strategies compare in practice, and how to efficiently adapt embedding models as new domains and data types continually emerge. In this work, we present a systematic study of multi-task training for text embeddings from two perspectives: data scheduling and model merging. We compare batch-level shuffling, sequential training variants, two-stage training, and multiple merging granularities, and find that simple batch-level shuffling consistently yields the strongest overall performance, suggesting that task conflicts are limited and training datasets are largely complementary. Despite its effectiveness, batch-level shuffling exhibits two practical limitations: suboptimal out-of-domain (OOD) generalization and poor suitability for incremental learning due to expensive full retraining. To address these issues, we propose Bagging-based rObust mOdel Merging (\modelname), which trains multiple embedding models on sampled subsets and merges them into a single model, improving robustness while retaining single-model inference efficiency. Moreover, \modelname naturally supports efficient incremental updates by training lightweight update models on new data with a small historical subset and merging them into the existing model. Experiments across diverse embedding benchmarks demonstrate that \modelname consistently improves both in-domain and OOD performance over full-corpus batch-level shuffling, while substantially reducing training cost in incremental learning settings.
- Abstract(参考訳): 汎用テキスト埋め込みモデルは、幅広いNLPや情報検索の応用を基盤としており、一般に大規模なマルチタスクコーパスで訓練され、広範な一般化を促進する。
しかし、異なるマルチタスクトレーニング戦略が実際にどのように比較されるのか、新しいドメインやデータタイプが絶えず現れるように、埋め込みモデルを効率的に適応する方法は、まだ不明である。
本研究では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
バッチレベルのシャッフル、シーケンシャルなトレーニングのバリエーション、2段階のトレーニング、および複数のマージの粒度を比較し、単純なバッチレベルのシャッフルが一貫して最大の全体的なパフォーマンスをもたらすことを発見し、タスクの競合が限定され、データセットがほとんど補完的であることを示唆する。
その有効性にもかかわらず、バッチレベルのシャッフルには2つの実用的な制限がある。
これらの問題に対処するために、サンプルサブセット上に複数の埋め込みモデルを訓練し、それらを単一のモデルにマージし、単一モデル推論効率を維持しながらロバスト性を向上させるバギングベースのrObust mOdel Merging (\modelname)を提案する。
さらに、Shamodelnameは、小さな履歴サブセットを持つ新しいデータに対する軽量更新モデルをトレーニングし、それらを既存のモデルにマージすることで、効率的なインクリメンタルアップデートを自然にサポートする。
さまざまな埋め込みベンチマークによる実験では、‘modelname’は、フルコーパスのバッチレベルのシャッフルよりも、ドメイン内とOODのパフォーマンスを一貫して改善すると同時に、インクリメンタルな学習設定におけるトレーニングコストを大幅に削減する。
関連論文リスト
- ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。
実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-01T12:06:42Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。