論文の概要: ColBERT-Zero: To Pre-train Or Not To Pre-train ColBERT models
- arxiv url: http://arxiv.org/abs/2602.16609v1
- Date: Wed, 18 Feb 2026 17:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.659607
- Title: ColBERT-Zero: To Pre-train Or Not To Pre-train ColBERT models
- Title(参考訳): ColBERT-Zero: ColBERTモデルを事前訓練するか、または事前訓練しないか
- Authors: Antoine Chaffin, Luca Arnaboldi, Amélie Chatelain, Florent Krzakala,
- Abstract要約: 大規模マルチベクトル事前学習により,より強力なマルチベクトルモデルが得られることを示す。
ColBERT-pre-trainedモデルであるColBERT-Zeroは、公開データのみをトレーニングし、GTE-ModernColBERTより優れている。
また、小さなKDステップのみを実行するだけでは、完全な事前学習に近い結果が得られるわけではないが、事前に教師付きステップを追加することで、より近いパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 18.396025658558745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art multi-vector models are obtained through a small Knowledge Distillation (KD) training step on top of strong single-vector models, leveraging the large-scale pre-training of these models. In this paper, we study the pre-training of multi-vector models and show that large-scale multi-vector pre-training yields much stronger multi-vector models. Notably, a fully ColBERT-pre-trained model, ColBERT-Zero, trained only on public data, outperforms GTE-ModernColBERT as well as its base model, GTE-ModernBERT, which leverages closed and much stronger data, setting new state-of-the-art for model this size. We also find that, although performing only a small KD step is not enough to achieve results close to full pre-training, adding a supervised step beforehand allows to achieve much closer performance while skipping the most costly unsupervised phase. Finally, we find that aligning the fine-tuning and pre-training setups is crucial when repurposing existing models. To enable exploration of our results, we release various checkpoints as well as code used to train them.
- Abstract(参考訳): 現在最先端のマルチベクターモデルは、強力な単一ベクターモデルの上に小さな知識蒸留(KD)訓練ステップを施し、これらのモデルの大規模事前学習を利用する。
本稿では,マルチベクトルモデルの事前学習について検討し,大規模マルチベクトル事前学習がより強力なマルチベクトルモデルをもたらすことを示す。
特に、ColBERT-pre-trainedモデルであるColBERT-Zeroは、公開データのみをトレーニングし、GTE-ModernColBERTとベースモデルであるGTE-ModernBERTを上回り、クローズドでより強力なデータを活用して、このサイズのモデルに新たな最先端を設定する。
また、KDの小さなステップのみを実行するだけでは、完全な事前学習に近い結果が得られるわけではないが、教師付きステップを事前に追加することで、最もコストのかかる教師なしフェーズをスキップしながら、より近いパフォーマンスを実現することができる。
最後に、既存のモデルを再購入する際には、微調整と事前訓練のセットアップの調整が不可欠であることが判明した。
結果の探索を可能にするため、さまざまなチェックポイントとトレーニングに使用するコードをリリースしています。
関連論文リスト
- Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。