論文の概要: SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals
- arxiv url: http://arxiv.org/abs/2502.04066v2
- Date: Tue, 13 May 2025 14:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 16:45:08.801501
- Title: SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals
- Title(参考訳): SMI:事前学習信号からモデル知識を推定する情報理論
- Authors: Changhao Jiang, Ming Zhang, Junjie Ye, Xiaoran Fan, Yifei Cao, Jiajun Sun, Zhiheng Xi, Shihan Dou, Yi Dong, Yujiong Shen, Jingqi Tong, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Qi Zhang, Tao Gui, Xuanjing Huang,
- Abstract要約: 我々は、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問応答(QA)の性能を予測することを目指している。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴,モデルサイズ,QAの精度を線形に相関する情報理論の指標である。
- 参考スコア(独自算出の注目度): 51.60874286674908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The GPT-4 technical report highlights the possibility of predicting model performance on downstream tasks using only pre-training signals, though detailed methodologies are absent. Such predictive capabilities are essential for resource-efficient pre-training and the construction of task-aligned datasets. In this paper, we aim to predict performance in closed-book question answering (QA), a vital downstream task indicative of a model's internal knowledge. We address three primary challenges: (1) limited access to and understanding of pre-training corpora, (2) limitations of current evaluation methods for pre-trained models, and (3) limitations of frequency-based metrics in predicting model performance. In response to these challenges, we conduct large-scale retrieval and semantic analysis across the pre-training corpora of 21 publicly available and 3 custom-trained large language models. Subsequently, we develop a multi-template QA evaluation framework incorporating paraphrased question variants. Building on these foundations, we propose Size-dependent Mutual Information (SMI), an information-theoretic metric that linearly correlates pre-training data characteristics, model size, and QA accuracy, without requiring any additional training. The experimental results demonstrate that SMI outperforms co-occurrence-based baselines, achieving $R^2$ > 0.75 on models with over one billion parameters. Theoretical analysis further reveals the marginal benefits of scaling model size and optimizing data, indicating that the upper limit of specific QA task accuracy is approximately 80%. Our project is available at https://github.com/yuhui1038/SMI.
- Abstract(参考訳): GPT-4テクニカルレポートは、事前学習信号のみを使用して下流タスクでモデル性能を予測する可能性を強調しているが、詳細な方法論は存在しない。
このような予測機能は、リソース効率の高い事前トレーニングとタスク整列データセットの構築に不可欠である。
本稿では,モデルの内部知識を示す重要な下流課題であるクローズドブック質問応答(QA)の性能を予測することを目的とする。
本稿では,(1)事前学習コーパスへのアクセスと理解の制限,(2)事前学習モデルに対する現在の評価手法の制限,(3)モデル性能予測における周波数ベースメトリクスの制限,の3つの課題に対処する。
これらの課題に対応するために、我々は、21の公開言語モデルと3つのカスタマイズされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
その後,パラフレーズ付き質問変種を取り入れた多段階QA評価フレームワークを開発した。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴,モデルサイズ,QAの精度を,追加のトレーニングを必要とせずに線形に相関する情報理論である。
実験の結果、SMIは10億以上のパラメータを持つモデルでR^2$ > 0.75を達成し、共起ベースラインを上回っていることが示された。
理論的解析により、モデルサイズのスケーリングとデータの最適化による限界的な利点が明らかとなり、特定のQAタスクの精度の上限が約80%であることが示されている。
私たちのプロジェクトはhttps://github.com/yuhui1038/SMIで利用可能です。
関連論文リスト
- Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Embedding-Informed Adaptive Retrieval-Augmented Generation of Large Language Models [37.02290559379761]
Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。
このことに動機づけられた、適応検索拡張生成(ARAG)研究は、クエリによって要求される知識が LLM に欠如している場合にのみ検索する。
論文 参考訳(メタデータ) (2024-04-04T15:21:22Z) - Skill-it! A Data-Driven Skills Framework for Understanding and Training
Language Models [29.17711426767209]
本稿では,タスク間のダウンストリームモデルの性能向上につながるデータの選択方法について検討する。
簡単な仮説に基づく新しいフレームワークを開発する。人間が意図的な順序で相互依存するスキルを取得するのと同じように、言語モデルもトレーニングデータから一連のスキルを学ぶ際に自然な順序に従う。
論文 参考訳(メタデータ) (2023-07-26T18:01:49Z) - Where Should I Spend My FLOPS? Efficiency Evaluations of Visual
Pre-training Methods [29.141145775835106]
固定されたFLOP予算が与えられた場合、代表的な視覚的タスクに対して高い正確性を得るために最適なデータセット、モデル、そして(自己監督的な)トレーニング方法は何ですか?
5つの大規模データセット(JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO)と6つの事前学習方法(CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised)を検討した。
本稿の結果は,自己管理手法が本質的に大規模で未処理なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2022-09-30T17:04:55Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。