論文の概要: Scaling Laws for Data-Efficient Visual Transfer Learning
- arxiv url: http://arxiv.org/abs/2504.13219v1
- Date: Thu, 17 Apr 2025 07:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:56:11.208014
- Title: Scaling Laws for Data-Efficient Visual Transfer Learning
- Title(参考訳): データ効率の良いビジュアルトランスファー学習のためのスケーリング法則
- Authors: Wenxuan Yang, Qingqu Wei, Chenxi Ma, Weimin Tan, Bo Yan,
- Abstract要約: 本稿では,視覚伝達学習におけるデータ効率のスケーリング法則に関する最初の実践的枠組みを確立する。
本稿では,蒸留効率の重要な転換点を明らかにする蒸留境界理論を提案する。
この研究は、データ制限されたレシエーションのスケーリング法則を再定義し、大規模事前学習と実践的な下流適応の知識ギャップを埋める。
- 参考スコア(独自算出の注目度): 14.114908296325277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current scaling laws for visual AI models focus predominantly on large-scale pretraining, leaving a critical gap in understanding how performance scales for data-constrained downstream tasks. To address this limitation, this paper establishes the first practical framework for data-efficient scaling laws in visual transfer learning, addressing two fundamental questions: 1) How do scaling behaviors shift when downstream tasks operate with limited data? 2) What governs the efficacy of knowledge distillation under such constraints? Through systematic analysis of vision tasks across data regimes (1K-1M samples), we propose the distillation boundary theory, revealing a critical turning point in distillation efficiency: 1) Distillation superiority: In data-scarce conditions, distilled models significantly outperform their non-distillation counterparts, efficiently leveraging inherited knowledge to compensate for limited training samples. 2) Pre-training dominance: As pre-training data increases beyond a critical threshold, non-distilled models gradually surpass distilled versions, suggesting diminishing returns from knowledge inheritance when sufficient task-specific data becomes available. Empirical validation across various model scales (2.5M to 38M parameters) and data volumes demonstrate these performance inflection points, with error difference curves transitioning from positive to negative values at critical data thresholds, confirming our theoretical predictions. This work redefines scaling laws for data-limited regimes, bridging the knowledge gap between large-scale pretraining and practical downstream adaptation, addressing a critical barrier to understanding vision model scaling behaviors and optimizing computational resource allocation.
- Abstract(参考訳): ビジュアルAIモデルの現在のスケーリング法則は、主に大規模な事前トレーニングに焦点を当てており、データ制約された下流タスクのパフォーマンスのスケール方法を理解する上で重要なギャップを残している。
この制限に対処するため、視覚伝達学習におけるデータ効率のスケーリング法則に関する最初の実践的枠組みを確立し、以下の2つの基本的問題に対処する。
1) 下流タスクが限られたデータで動作する場合、スケーリングの振る舞いはどのように変化するか?
2)そのような制約下での知識蒸留の有効性はどうなるのか。
データレシエーションにおける視覚タスクの系統的解析 (1K-1Mサンプル) を通じて, 蒸留境界理論を提案し, 蒸留効率の重要な転換点を明らかにした。
1) 蒸留優越性: データスカース条件下では, 蒸留したモデルは, 非蒸留モデルよりも有意に優れ, 限られたトレーニングサンプルを補うために, 遺伝知識を効率的に活用する。
2)事前学習の優位性: 事前学習データが臨界しきい値を超えて増大するにつれて, 未蒸留モデルは蒸留バージョンを徐々に超えるようになり, 十分なタスク固有データが利用可能になると, 知識継承からのリターンが減少する可能性が示唆された。
様々なモデルスケール(2.5Mから38Mのパラメータ)とデータボリュームにわたる実証的検証は、これらの性能インフレクションポイントを示し、誤差差曲線は臨界データしきい値の正値から負値に遷移し、理論的な予測を裏付ける。
この研究は、データ制限体制のスケーリング法則を再定義し、大規模事前学習と実践的な下流適応の知識ギャップを埋め、視覚モデルスケーリングの振る舞いを理解し、計算資源割り当てを最適化するための重要な障壁に対処する。
関連論文リスト
- LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文 参考訳(メタデータ) (2025-02-17T18:45:25Z) - Scaling laws in wearable human activity recognition [19.49701947129144]
スケーリング法則は、モデルキャパシティと事前学習データボリュームをリンクすることで、より原則化された設計への移行を支援する可能性がある。
事前学習データとトランスフォーマーアーキテクチャの両方を網羅的に網羅的に探索することにより,HARのスケーリング法則を初めて確立する。
これらのスケーリング法則は,3つのHARベンチマークデータセットのダウンストリーム性能向上に寄与することを示す。
論文 参考訳(メタデータ) (2025-02-05T17:00:08Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。