論文の概要: Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets
- arxiv url: http://arxiv.org/abs/2506.04598v1
- Date: Thu, 05 Jun 2025 03:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.512225
- Title: Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets
- Title(参考訳): オープンファウンデーション言語ビジョンモデルとデータセットのロバスト比較のためのスケーリング法則
- Authors: Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev,
- Abstract要約: モデルとデータセットの比較において,スケール法則の導出がいかに有効かを示す。
初めて、CLIPとMaMMUTという2つの重要な言語ビジョン学習手順のために、完全なスケーリング法則が導出された。
一定の学習率のスケジュールでスケーリング法則を導出する場合も比較が可能であることを示す。
- 参考スコア(独自算出の注目度): 5.8465717270452195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In studies of transferable learning, scaling laws are obtained for various important foundation models to predict their properties and performance at larger scales. We show here how scaling law derivation can also be used for model and dataset comparison, allowing to decide which procedure is to be preferred for pre-training. For the first time, full scaling laws based on dense measurements across a wide span of model and samples seen scales are derived for two important language-vision learning procedures, CLIP and MaMMUT, that use either contrastive only or contrastive and captioning text generative loss. Ensuring sufficient prediction accuracy for held out points, we use derived scaling laws to compare both models, obtaining evidence for MaMMUT's stronger improvement with scale and better sample efficiency than standard CLIP. To strengthen validity of the comparison, we show scaling laws for various downstream tasks, classification, retrieval, and segmentation, and for different open datasets, DataComp, DFN and Re-LAION, observing consistently the same trends. We show that comparison can also be performed when deriving scaling laws with a constant learning rate schedule, reducing compute cost. Accurate derivation of scaling laws provides thus means to perform model and dataset comparison across scale spans, avoiding misleading conclusions based on measurements from single reference scales only, paving the road for systematic comparison and improvement of open foundation models and datasets for their creation. We release all the pre-trained models with their intermediate checkpoints, including openMaMMUT-L/14, which achieves $80.3\%$ zero-shot ImageNet-1k accuracy, trained on 12.8B samples from DataComp-1.4B. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/scaling-laws-for-comparison.
- Abstract(参考訳): 伝達可能な学習の研究において、様々な重要な基礎モデルに対してスケーリング法則を求め、それらの特性と性能を大規模に予測する。
ここでは,スケーリング法則の導出をモデルとデータセットの比較に用いる方法を示し,事前学習にどちらが望ましいかを決定する。
比較的・対比的・文字生成損失の2つの重要な言語ビジョン学習手順であるCLIPとMaMMUTについて, モデルおよび対象標本の広範囲にわたる密集度測定に基づく完全なスケーリング法則を導出した。
留意点に対する十分な予測精度を保証し、導出スケーリング法則を用いて両方のモデルを比較し、MaMMUTが標準CLIPよりも拡張され、サンプル効率が良くなったことを示す。
比較の妥当性を高めるために、様々な下流タスク、分類、検索、セグメンテーション、および異なるオープンデータセット、DataComp、DFN、Re-LAIONに対するスケーリング法則を示し、一貫して同じ傾向を観察する。
また,スケーリング法則を一定の学習率スケジュールで導出することで,計算コストを低減できることを示す。
したがって、スケーリング法則の正確な導出は、単一の基準スケールからの測定に基づく誤解を招く結論を回避し、オープンファンデーションモデルとデータセットの体系的な比較と改善のための道を開くことによって、スケールスパンをまたいだモデルとデータセットの比較を行う手段を提供する。
OpenMaMMUT-L/14は,DataComp-1.4Bから12.8Bのサンプルをトレーニングしたゼロショット画像Net-1kの精度が80.3\%である。
論文で実験を再現するためのコードと生の実験データについては、https://github.com/LAION-AI/scaling-laws-for-comparisonを参照してください。
関連論文リスト
- Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Reproducible scaling laws for contrastive language-image learning [42.354402731615444]
コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を,パブリックLAIONデータセットとオープンソースOpenCLIPリポジトリを用いて検討する。
私たちの大規模な実験には、最大20億のイメージテキストペアでトレーニングされたモデルと、複数の下流タスクに対する電力法スケーリングの特定が含まれています。
OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法則において重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-12-14T10:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。