論文の概要: Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe
- arxiv url: http://arxiv.org/abs/2406.04165v1
- Date: Thu, 6 Jun 2024 15:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:20:13.550848
- Title: Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe
- Title(参考訳): 埋め込みモデルに言語モデルを組み込む:最適なレシピを見つける
- Authors: Alicja Ziarko, Albert Q. Jiang, Bartosz Piotrowski, Wenda Li, Mateja Jamnik, Piotr Miłoś,
- Abstract要約: 本稿では,テキスト埋め込みモデルに対して,計算-最適方式で対照的に学習する方法について検討する。
我々の革新は、異なる計算予算レベルでのテキスト埋め込みモデルのモデルサイズ、データ量、微調整方法の最適構成を生成するアルゴリズムである。
- 参考スコア(独自算出の注目度): 10.34105218186634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text embeddings are essential for many tasks, such as document retrieval, clustering, and semantic similarity assessment. In this paper, we study how to contrastively train text embedding models in a compute-optimal fashion, given a suite of pre-trained decoder-only language models. Our innovation is an algorithm that produces optimal configurations of model sizes, data quantities, and fine-tuning methods for text-embedding models at different computational budget levels. The resulting recipe, which we obtain through extensive experiments, can be used by practitioners to make informed design choices for their embedding models. Specifically, our findings suggest that full fine-tuning and low-rank adaptation fine-tuning produce optimal models at lower and higher computational budgets respectively.
- Abstract(参考訳): テキストの埋め込みは、文書検索、クラスタリング、意味的類似性評価など、多くのタスクに必須である。
本稿では,事前学習されたデコーダのみの言語モデルを考えると,テキスト埋め込みモデルを計算最適に学習する方法を検討する。
我々の革新は、異なる計算予算レベルでのテキスト埋め込みモデルのモデルサイズ、データ量、微調整方法の最適構成を生成するアルゴリズムである。
得られたレシピは、広範囲な実験を通じて得られるもので、実践者が埋め込みモデルにインフォームドデザインを選択するために利用することができる。
具体的には, 完全微調整および低ランク適応微調整は, それぞれ, より低い計算予算で最適モデルを生成することが示唆された。
関連論文リスト
- A Post-Training Enhanced Optimization Approach for Small Language Models [0.0]
本稿では,小言語モデルに対する連続的な学習後アライメントデータ構築法を提案する。
本手法のコアは大規模モデルのデータガイダンスに基づいて,アライメントデータの多様性と精度を最適化する。
論文 参考訳(メタデータ) (2024-11-05T09:32:26Z) - Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - An Online Learning Approach to Prompt-based Selection of Generative Models [23.91197677628145]
様々な入力プロンプトに対する最良の生成モデルのオンライン識別は、サブ最適モデルのクエリに関連するコストを削減できる。
与えられた入力プロンプトに対して最適なデータ生成モデルを予測するためのオンライン学習フレームワークを提案する。
実画像と画像と画像の合成モデルを用いた実験により,RFF-UCBは最適な生成モデルを特定するのに成功していることが示された。
論文 参考訳(メタデータ) (2024-10-17T07:33:35Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文 参考訳(メタデータ) (2023-11-06T16:20:28Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Prototypical Fine-tuning: Towards Robust Performance Under Varying Data
Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。
提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文 参考訳(メタデータ) (2022-11-24T14:38:08Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。