論文の概要: F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data
- arxiv url: http://arxiv.org/abs/2510.02294v1
- Date: Thu, 02 Oct 2025 17:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.282639
- Title: F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data
- Title(参考訳): F2LLMテクニカルレポート:600万のオープンソースデータによるSOTA埋め込みのパフォーマンスのマッチング
- Authors: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang,
- Abstract要約: F2LLMは,0.6B,1.7B,4Bの3種類の最先端埋め込みモデルである。
F2LLMは、オープンソースの非合成データセットからキュレートされた600万のクエリドキュメント陰性に関する基礎モデルから直接微調整される。
MTEBの英語リーダーボードでは、F2LLM-4Bは約4Bパラメーターと7番目のモデルで2位、F2LLM-1.7Bは1B-2Bサイズ範囲で1位である。
- 参考スコア(独自算出の注目度): 19.088644745246373
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce F2LLM - Foundation to Feature Large Language Models, a suite of state-of-the-art embedding models in three sizes: 0.6B, 1.7B, and 4B. Unlike previous top-ranking embedding models that require massive contrastive pretraining, sophisticated training pipelines, and costly synthetic training data, F2LLM is directly finetuned from foundation models on 6 million query-document-negative tuples curated from open-source, non-synthetic datasets, striking a strong balance between training cost, model size, and embedding performance. On the MTEB English leaderboard, F2LLM-4B ranks 2nd among models with approximately 4B parameters and 7th overall, while F2LLM-1.7B ranks 1st among models in the 1B-2B size range. To facilitate future research in the field, we release the models, training dataset, and code, positioning F2LLM as a strong, reproducible, and budget-friendly baseline for future works.
- Abstract(参考訳): F2LLM - Foundation to Feature Large Language Models - 最先端の組込みモデルの3つのサイズ(0.6B, 1.7B, 4B)について紹介する。
大規模なコントラスト付き事前トレーニング、高度なトレーニングパイプライン、コストの高い合成トレーニングデータを必要とする従来のトップクラスの埋め込みモデルとは異なり、F2LLMは、600万のクエリドキュメント陰性タプルをオープンソースの非合成データセットからキュレートした基礎モデルから直接微調整されており、トレーニングコスト、モデルサイズ、埋め込みパフォーマンスの強いバランスを保っている。
MTEBの英語リーダーボードでは、F2LLM-4Bは約4Bパラメーターと7番目のモデルで2位、F2LLM-1.7Bは1B-2Bサイズ範囲で1位である。
この分野での今後の研究を促進するために、F2LLMを強力で再現可能で予算に優しいベースラインとして位置づけ、モデル、トレーニングデータセット、コードをリリースする。
関連論文リスト
- Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。
そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。
真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文 参考訳(メタデータ) (2025-06-18T15:26:43Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - Skill over Scale: The Case for Medium, Domain-Specific Models for SE [4.2630881518611226]
コードラベリングタスクにおいて、控えめな大きさのドメイン固有モデルは、はるかに大きなモデルよりも優れていることを示す。
SOBertBase (125Mパラメータ)とSOBertLarge (762Mパラメータ)の2つのモデルを、それぞれ374ドルと1600ドルでトレーニングしています。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。