論文の概要: Starbucks: Improved Training for 2D Matryoshka Embeddings
- arxiv url: http://arxiv.org/abs/2410.13230v2
- Date: Fri, 18 Oct 2024 08:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:36.762908
- Title: Starbucks: Improved Training for 2D Matryoshka Embeddings
- Title(参考訳): スターバックス:2Dマトリオシカ・エンベディングのトレーニングの改善
- Authors: Shengyao Zhuang, Shuai Wang, Bevan Koopman, Guido Zuccon,
- Abstract要約: 我々は,Matryoshkaライクな埋め込みモデルの新たなトレーニング戦略であるStarbucksを提案する。
微調整相について、我々は、小さなサイズから大きなサイズの層次元対の固定されたリストを提供する。
また,サブレイヤとサブディメンジョンにマスク付きオートエンコーダ言語モデリングを適用する,新しい事前学習戦略を導入する。
- 参考スコア(独自算出の注目度): 32.44832240958393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effective approaches that can scale embedding model depth (i.e. layers) and embedding size allow for the creation of models that are highly scalable across different computational resources and task requirements. While the recently proposed 2D Matryoshka training approach can efficiently produce a single embedding model such that its sub-layers and sub-dimensions can measure text similarity, its effectiveness is significantly worse than if smaller models were trained separately. To address this issue, we propose Starbucks, a new training strategy for Matryoshka-like embedding models, which encompasses both the fine-tuning and pre-training phases. For the fine-tuning phase, we discover that, rather than sampling a random sub-layer and sub-dimensions for each training steps, providing a fixed list of layer-dimension pairs, from small size to large sizes, and computing the loss across all pairs significantly improves the effectiveness of 2D Matryoshka embedding models, bringing them on par with their separately trained counterparts. To further enhance performance, we introduce a new pre-training strategy, which applies masked autoencoder language modelling to sub-layers and sub-dimensions during pre-training, resulting in a stronger backbone for subsequent fine-tuning of the embedding model. Experimental results on both semantic text similarity and retrieval benchmarks demonstrate that the proposed pre-training and fine-tuning strategies significantly improved the effectiveness over 2D Matryoshka models, enabling Starbucks models to perform more efficiently and effectively than separately trained models.
- Abstract(参考訳): 埋め込みモデル深さ(すなわち層)と埋め込みサイズをスケールできる効果的なアプローチは、異なる計算資源やタスク要求に対して高度にスケーラブルなモデルを作成することができる。
最近提案された2D Matryoshka トレーニングアプローチは,そのサブレイヤとサブディメンジョンがテキスト類似性を測定することができるような,単一の埋め込みモデルを効率的に生成できるが,より小さなモデルが個別にトレーニングされた場合に比べて,その効果は著しく低下する。
この問題に対処するため、我々はMatryoshkaのような埋め込みモデルのための新しいトレーニング戦略であるStarbucksを提案する。
微調整フェーズでは,各トレーニングステップ毎にランダムなサブレイヤとサブディメンジョンをサンプリングする代わりに,小さなサイズから大きなサイズまでのレイヤ次元ペアの固定リストを提供し,すべてのペア間の損失を計算することで,2次元のMatryoshka埋め込みモデルの有効性を著しく向上し,個別に訓練された組立モデルと同等に機能することを発見した。
さらに性能を向上させるために,プリトレーニング中にサブレイヤやサブディメンジョンにマスク付きオートエンコーダ言語を応用した新しい事前学習戦略を導入する。
セマンティックテキスト類似性および検索ベンチマークによる実験結果から,提案手法により2次元マトリリシカモデルに対する事前学習および微調整が大幅に向上し,Starbucksモデルが別々に訓練されたモデルよりも効率的かつ効果的に機能することが確認された。
関連論文リスト
- SPIRE: Conditional Personalization for Federated Diffusion Generative Models [7.8583640700306585]
Shared Backbone Personal Identity Representation Embeddings (SPIRE)は、FLで条件付き生成としてクライアント拡散ベースの生成をキャストするフレームワークである。
SPIREは、ネットワークを(i)人口レベルのスコア関数を学習する高容量なグローバルバックボーンと、(ii)ローカルデータ統計を符号化する軽量で学習可能なクライアント埋め込みに分解する。
我々の分析は、クライアントの埋め込みが共有スコアネットワークをパーソナライズするバイアスとしてどのように振舞うかを示唆している。
論文 参考訳(メタデータ) (2025-06-14T01:40:31Z) - 2D Matryoshka Training for Information Retrieval [32.44832240958393]
2D Matryoshka Trainingは、エンコーダモデルを様々なレイヤ次元のセットアップで同時にトレーニングするために設計された埋め込み表現トレーニングアプローチである。
STSタスクにおける2D Matryoshka Trainingの両バージョンの実装と評価を行い,解析を検索タスクに拡張した。
論文 参考訳(メタデータ) (2024-11-26T10:47:35Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - Discriminative Adversarial Unlearning [40.30974185546541]
我々は、min-max最適化パラダイムの確立した原則に基づいて、新しい機械学習フレームワークを導入する。
我々は、訓練されたモデルから特定のサンプルの学習を容易にするために、強力なメンバーシップ推論攻撃(MIA)の能力を利用する。
提案アルゴリズムは,スクラッチから再学習する理想的なベンチマークを,ランダムサンプルの忘れ方とクラスワイドの忘れ方の両方に近似する。
論文 参考訳(メタデータ) (2024-02-10T03:04:57Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Enhancing Cross-Category Learning in Recommendation Systems with
Multi-Layer Embedding Training [2.4862527485819186]
多層埋め込み訓練(MLET)は、埋め込み層の因子化による埋め込みを訓練する。
MLETは、特に稀なアイテムに対して、一貫してより良いモデルを生成する。
モデル品質が一定であれば、MLETは埋め込み寸法とモデルサイズを最大16倍、平均5.8倍まで減らすことができる。
論文 参考訳(メタデータ) (2023-09-27T09:32:10Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。