論文の概要: Zero-Shot Performance Prediction for Probabilistic Scaling Laws
- arxiv url: http://arxiv.org/abs/2510.16743v1
- Date: Sun, 19 Oct 2025 07:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.122873
- Title: Zero-Shot Performance Prediction for Probabilistic Scaling Laws
- Title(参考訳): 確率的スケーリング法則のゼロショット性能予測
- Authors: Viktoria Schram, Markus Hiller, Daniel Beck, Trevor Cohn,
- Abstract要約: 自然言語処理モデル(NLP)モデルの学習曲線の予測は、情報的意思決定を可能にする。
予測タスクをマルチタスク学習問題として定式化し、各タスクのデータを2層階層の階層構造でモデル化する。
当社のフレームワークを,最大30ドルのLCで3つの小規模NLPデータセット上で検証する。
- 参考スコア(独自算出の注目度): 20.863873378387865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prediction of learning curves for Natural Language Processing (NLP) models enables informed decision-making to meet specific performance objectives, while reducing computational overhead and lowering the costs associated with dataset acquisition and curation. In this work, we formulate the prediction task as a multitask learning problem, where each task's data is modelled as being organized within a two-layer hierarchy. To model the shared information and dependencies across tasks and hierarchical levels, we employ latent variable multi-output Gaussian Processes, enabling to account for task correlations and supporting zero-shot prediction of learning curves (LCs). We demonstrate that this approach facilitates the development of probabilistic scaling laws at lower costs. Applying an active learning strategy, LCs can be queried to reduce predictive uncertainty and provide predictions close to ground truth scaling laws. We validate our framework on three small-scale NLP datasets with up to $30$ LCs. These are obtained from nanoGPT models, from bilingual translation using mBART and Transformer models, and from multilingual translation using M2M100 models of varying sizes.
- Abstract(参考訳): 自然言語処理(NLP)モデルにおける学習曲線の予測により,計算オーバーヘッドを低減し,データセットの取得とキュレーションに関連するコストを低減しつつ,情報決定が特定のパフォーマンス目標を満たすことができる。
本研究では,この予測タスクをマルチタスク学習問題として定式化し,各タスクのデータを2層階層の階層構造としてモデル化する。
タスクや階層レベルの共有情報や依存関係をモデル化するために,潜時可変多出力ガウスプロセスを採用し,タスク相関を考慮し,学習曲線(LC)のゼロショット予測をサポートする。
提案手法は,低コストでの確率的スケーリング法則の開発を促進することを実証する。
アクティブな学習戦略を適用することで、LCをクエリして予測の不確実性を減らし、真理スケーリング法に近い予測を行うことができる。
当社のフレームワークを,最大30ドルのLCで3つの小規模NLPデータセット上で検証する。
これらはナノGPTモデル、mBARTモデルとTransformerモデルを用いたバイリンガル翻訳、M2M100モデルを用いた多言語翻訳から得られる。
関連論文リスト
- Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets [0.0]
大規模言語モデル(LLM)は、下流タスクを明示的に微調整することなく、構造化された入力に対して予測タスクを実行することができる。
分類,回帰,クラスタリングタスクのための小規模構造化データセット上でのLCMの実証関数近似能力について検討した。
以上の結果から,LLMは構造化データの汎用的予測エンジンとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-24T15:00:51Z) - Quantile Regression with Large Language Models for Price Prediction [15.277244542405345]
大規模言語モデル(LLM)は、回帰を含む構造化予測タスクにおいて有望であることを示している。
我々は,LLMが完全な予測分布を生成できる新しい量子レグレッション手法を提案する。
量子ヘッドを微調整したMistral-7Bモデルは、点推定と分布推定の両方において従来の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-06-07T04:19:28Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。