論文の概要: Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training
- arxiv url: http://arxiv.org/abs/2502.04066v1
- Date: Thu, 06 Feb 2025 13:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.777935
- Title: Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training
- Title(参考訳): 学習前に利用可能な情報のみを用いた閉書QA課題における大規模言語モデル能力の予測
- Authors: Changhao Jiang, Ming Zhang, Junjie Ye, Xiaoran Fan, Yifei Cao, Jiajun Sun, Zhiheng Xi, Shihan Dou, Yi Dong, Yujiong Shen, Jingqi Tong, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Qi Zhang, Tao Gui, Xuanjing Huang,
- Abstract要約: 我々は,事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。
1)事前学習プロセス全体,特にデータ構築を習得すること,2)モデルの知識保持を評価すること,3)トレーニング前に利用可能な情報のみを使用してタスク固有の知識保持を予測すること,の3つの課題に対処する。
本稿では,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMIメトリクスを紹介する。
- 参考スコア(独自算出の注目度): 51.60874286674908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The GPT-4 technical report from OpenAI suggests that model performance on specific tasks can be predicted prior to training, though methodologies remain unspecified. This approach is crucial for optimizing resource allocation and ensuring data alignment with target tasks. To achieve this vision, we focus on predicting performance on Closed-book Question Answering (CBQA) tasks, which are closely tied to pre-training data and knowledge retention. We address three major challenges: 1) mastering the entire pre-training process, especially data construction; 2) evaluating a model's knowledge retention; and 3) predicting task-specific knowledge retention using only information available prior to training. To tackle these challenges, we pre-train three large language models (i.e., 1.6B, 7B, and 13B) using 560k dollars and 520k GPU hours. We analyze the pre-training data with knowledge triples and assess knowledge retention using established methods. Additionally, we introduce the SMI metric, an information-theoretic measure that quantifies the relationship between pre-training data, model size, and task-specific knowledge retention. Our experiments reveal a strong linear correlation ($\text{R}^2 > 0.84$) between the SMI metric and the model's accuracy on CBQA tasks across models of varying sizes (i.e., 1.1B, 1.6B, 7B, and 13B). The dataset, model, and code are available at https://github.com/yuhui1038/SMI.
- Abstract(参考訳): OpenAIのGPT-4テクニカルレポートでは、特定のタスクのモデルパフォーマンスはトレーニング前に予測できるが、方法論は未定のままである。
このアプローチは、リソース割り当てを最適化し、ターゲットタスクとデータアライメントを確保するために不可欠である。
このビジョンを達成するために、我々は、事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。
私たちは3つの大きな課題に取り組みます。
1) 事前学習プロセス全体,特にデータ構築を習得すること。
2 モデルの知識保持を評価すること。
3)訓練前に利用可能な情報のみを用いてタスク固有の知識保持を予測する。
これらの課題に対処するために、私たちは560kと520kのGPU時間を使用して、3つの大きな言語モデル(1.6B、7B、13B)を事前訓練しました。
本研究では,知識三重項を用いた事前学習データを解析し,確立した手法を用いて知識保持を評価する。
さらに,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMI尺度を導入する。
実験の結果,SMI測度とCBQA測度におけるモデルの精度との間には,異なるサイズ (1.1B,1.6B,7B,13B) のモデル間で強い線形相関関係(\text{R}^2 > 0.84$)が認められた。
データセット、モデル、コードはhttps://github.com/yuhui1038/SMIで入手できる。
関連論文リスト
- Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - A Statistical Framework for Data-dependent Retrieval-Augmented Models [46.781026675083254]
最新のMLシステムは、最終的な予測を強化するために、追加の関連情報によって入力インスタンスを増大させる。
本研究では,1)データ依存メトリックを用いて大規模コーパスから関連する情報を識別するエム検索器,2)検索した情報とともに入力インスタンスを消費し最終的な予測を行うエム予測器,の2つのコンポーネントを用いたモデルについて検討する。
論文 参考訳(メタデータ) (2024-08-27T20:51:06Z) - Reasoning and Tools for Human-Level Forecasting [0.4261908132550109]
本稿では,Reasoning and Tools for Forecasting (RTF)について紹介する。
我々は,競争予測プラットフォームからの質問でモデルを評価し,本手法が人間の予測に勝るものであることを実証した。
論文 参考訳(メタデータ) (2024-08-21T23:42:06Z) - In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - Embedding-Informed Adaptive Retrieval-Augmented Generation of Large Language Models [37.02290559379761]
Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。
このことに動機づけられた、適応検索拡張生成(ARAG)研究は、クエリによって要求される知識が LLM に欠如している場合にのみ検索する。
論文 参考訳(メタデータ) (2024-04-04T15:21:22Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Skill-it! A Data-Driven Skills Framework for Understanding and Training
Language Models [29.17711426767209]
本稿では,タスク間のダウンストリームモデルの性能向上につながるデータの選択方法について検討する。
簡単な仮説に基づく新しいフレームワークを開発する。人間が意図的な順序で相互依存するスキルを取得するのと同じように、言語モデルもトレーニングデータから一連のスキルを学ぶ際に自然な順序に従う。
論文 参考訳(メタデータ) (2023-07-26T18:01:49Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Where Should I Spend My FLOPS? Efficiency Evaluations of Visual
Pre-training Methods [29.141145775835106]
固定されたFLOP予算が与えられた場合、代表的な視覚的タスクに対して高い正確性を得るために最適なデータセット、モデル、そして(自己監督的な)トレーニング方法は何ですか?
5つの大規模データセット(JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO)と6つの事前学習方法(CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised)を検討した。
本稿の結果は,自己管理手法が本質的に大規模で未処理なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2022-09-30T17:04:55Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。