論文の概要: Starbucks-v2: Improved Training for 2D Matryoshka Embeddings
- arxiv url: http://arxiv.org/abs/2410.13230v3
- Date: Fri, 30 May 2025 04:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 17:26:04.907107
- Title: Starbucks-v2: Improved Training for 2D Matryoshka Embeddings
- Title(参考訳): Starbucks-v2: 2D Matryoshka Embeddingsのトレーニング改善
- Authors: Shengyao Zhuang, Shuai Wang, Fabio Zheng, Bevan Koopman, Guido Zuccon,
- Abstract要約: 2D Matryoshkaトレーニングにより、単一の埋め込みモデルにより、異なるレイヤにわたるサブネットワーク表現と埋め込み次元を生成することができる。
本稿では,構造化ファインチューニングとマスク付きオートエンコーダ事前学習を組み合わせた,Matryoshkaスタイルの埋め込みモデルの新たなトレーニング戦略であるStarbucksを提案する。
我々のMAEベースの事前学習により、サブネットワークの表現品質が向上し、下流タスクのバックボーンが強化される。
- 参考スコア(独自算出の注目度): 30.24508997323456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 2D Matryoshka training enables a single embedding model to generate sub-network representations across different layers and embedding dimensions, offering adaptability to diverse computational and task constraints. However, its effectiveness remains well below that of individually trained models of equivalent sizes. To address this, we propose Starbucks, a new training strategy for Matryoshka-style embedding models that combines structured fine-tuning with masked autoencoder (MAE) pre-training. During fine-tuning, we compute the loss over a fixed set of layer-dimension pairs, from small to large, which significantly improves performance over randomly sampled sub-networks and matches that of separately trained models. Our MAE-based pre-training further enhances the representation quality of sub-networks, providing a stronger backbone for downstream tasks. Experiments on both in-domain (semantic similarity and passage retrieval) and out-of-domain (BEIR) benchmarks show that Starbucks consistently outperforms 2D Matryoshka models and matches or exceeds the performance of individually trained models, while maintaining high efficiency and adaptability. Ablation studies confirm our loss design choices, the impact of SMAE pre-training and demonstrate the applicability of Starbucks across backbones. We further show that depth- and width-wise Starbucks variants capture complementary information, and that their hybridization yields additional performance gains with minimal latency overhead due to parallelization. Code available at https://github.com/ielab/Starbucks
- Abstract(参考訳): 2D Matryoshkaトレーニングは、単一の埋め込みモデルにより、異なるレイヤと埋め込み次元をまたいだサブネットワーク表現を生成し、多様な計算およびタスク制約への適応性を提供する。
しかし、その有効性は、同等の大きさの個別に訓練されたモデルよりもはるかに低いままである。
そこで本研究では,構造化ファインチューニングとマスク付きオートエンコーダ(MAE)プレトレーニングを組み合わせた,Matryoshkaスタイルの埋め込みモデルの新たなトレーニング戦略であるStarbucksを提案する。
微調整中、固定された層次元対の損失を小さいものから大きいものへと計算し、ランダムにサンプリングされたサブネットワークの性能を著しく改善し、個別に訓練されたモデルと一致させる。
我々のMAEベースの事前学習により、サブネットワークの表現品質が向上し、下流タスクのバックボーンが強化される。
ドメイン内(セマンティックな類似性と通過の検索)とBEIR(Out-of-domain)ベンチマークの両方の実験では、スターバックスが高い効率と適応性を維持しながら、2Dマトリリシカモデルより一貫して優れており、個別に訓練されたモデルのパフォーマンスと一致または上回っていることが示されている。
アブレーション研究は、我々の損失設計の選択、SMAEの事前トレーニングの影響を確認し、バックボーン全体にわたるスターバックスの適用性を示す。
さらに、深度と幅の異なるStarbucks変種が相補的な情報をキャプチャし、それらのハイブリダイゼーションが並列化によるレイテンシのオーバーヘッドを最小限に抑えながら、さらなる性能向上をもたらすことを示した。
https://github.com/ielab/Starbucks
関連論文リスト
- 2D Matryoshka Training for Information Retrieval [32.44832240958393]
2D Matryoshka Trainingは、エンコーダモデルを様々なレイヤ次元のセットアップで同時にトレーニングするために設計された埋め込み表現トレーニングアプローチである。
STSタスクにおける2D Matryoshka Trainingの両バージョンの実装と評価を行い,解析を検索タスクに拡張した。
論文 参考訳(メタデータ) (2024-11-26T10:47:35Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Enhancing Cross-Category Learning in Recommendation Systems with
Multi-Layer Embedding Training [2.4862527485819186]
多層埋め込み訓練(MLET)は、埋め込み層の因子化による埋め込みを訓練する。
MLETは、特に稀なアイテムに対して、一貫してより良いモデルを生成する。
モデル品質が一定であれば、MLETは埋め込み寸法とモデルサイズを最大16倍、平均5.8倍まで減らすことができる。
論文 参考訳(メタデータ) (2023-09-27T09:32:10Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。