論文の概要: Provable Target Sample Complexity Improvements as Pre-Trained Models Scale
- arxiv url: http://arxiv.org/abs/2602.04233v1
- Date: Wed, 04 Feb 2026 05:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.387637
- Title: Provable Target Sample Complexity Improvements as Pre-Trained Models Scale
- Title(参考訳): 予測可能なターゲットサンプル複雑度の改善 : 事前学習モデルによる検討
- Authors: Kazuto Fukuchi, Ryuichiro Hataya, Kota Matsui,
- Abstract要約: 事前学習モデルの利点は、スケーリング法則に関する実証的研究によって強調されている。
我々は,新しい枠組み,コーキングを導入することによって理論的調査を行う。
我々の分析は、事前学習モデルの改善が下流タスクのサンプルの複雑さを確実に減少させることを証明している。
- 参考スコア(独自算出の注目度): 6.964881957695288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models have become indispensable for efficiently building models across a broad spectrum of downstream tasks. The advantages of pre-trained models have been highlighted by empirical studies on scaling laws, which demonstrate that larger pre-trained models can significantly reduce the sample complexity of downstream learning. However, existing theoretical investigations of pre-trained models lack the capability to explain this phenomenon. In this paper, we provide a theoretical investigation by introducing a novel framework, caulking, inspired by parameter-efficient fine-tuning (PEFT) methods such as adapter-based fine-tuning, low-rank adaptation, and partial fine-tuning. Our analysis establishes that improved pre-trained models provably decrease the sample complexity of downstream tasks, thereby offering theoretical justification for the empirically observed scaling laws relating pre-trained model size to downstream performance, a relationship not covered by existing results.
- Abstract(参考訳): 事前学習されたモデルは、下流タスクの幅広い範囲で効率的にモデルを構築するのに欠かせないものとなっている。
事前学習モデルの利点は、より大規模な事前学習モデルが下流学習のサンプルの複雑さを著しく減少させることを示す、スケーリング法則に関する実証的研究によって強調されている。
しかし、既存の事前学習モデルに関する理論的研究では、この現象を説明する能力が欠如している。
本稿では,アダプタベースのファインチューニング,低ランク適応,部分的なファインチューニングといった,パラメータ効率のよいファインチューニング(PEFT)手法に着想を得た,新しいフレームワークであるコーキングを導入することによって理論的検討を行う。
そこで本研究では, 事前学習モデルの改良により, ダウンストリームタスクのサンプルの複雑さを確実に低減し, 既存の結果とは関係のない, ダウンストリームモデルのサイズとダウンストリームパフォーマンスの関係に関する, 経験的に観察されたスケーリング法則の理論的正当性を検証した。
関連論文リスト
- Personalizing black-box models for nonparametric regression with minimax optimality [17.981373446046366]
そこで本研究では,限定的なサンプル数を用いて,トレーニング済みのブラックボックスモデルを対象ドメインに適応させる,数ショットのパーソナライゼーションについて検討する。
そこで我々は,ブラックボックス事前学習モデルを回帰処理に組み込むアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-04T08:32:28Z) - EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。
EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文 参考訳(メタデータ) (2025-06-04T02:11:54Z) - Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - Physics-Informed Diffusion Models [0.0]
生成モデルと偏微分方程式の充足を統一する枠組みを提案する。
本手法は,流体流動ケーススタディにおける従来の研究と比較して,残差を最大2桁まで低減する。
論文 参考訳(メタデータ) (2024-03-21T13:52:55Z) - Bias Mitigation in Fine-tuning Pre-trained Models for Enhanced Fairness
and Efficiency [26.86557244460215]
新しいタスクにおけるバイアスを軽減するために特別に設計された、効率的で堅牢な微調整フレームワークを導入します。
我々の経験的分析は、異なる人口集団の予測に影響を与える事前学習モデルのパラメータが異なることを示している。
我々は、人口集団間でフィッシャー情報を用いて決定された、これらの影響力のある重みの重要性を中和する伝達学習戦略を採用している。
論文 参考訳(メタデータ) (2024-03-01T16:01:28Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。