論文の概要: Quantifying the Importance of Data Alignment in Downstream Model Performance
- arxiv url: http://arxiv.org/abs/2501.08496v2
- Date: Tue, 21 Jan 2025 01:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:40.365201
- Title: Quantifying the Importance of Data Alignment in Downstream Model Performance
- Title(参考訳): 下流モデル性能におけるデータアライメントの重要性の定量化
- Authors: Krrish Chawla, Aryan Sahai, Mario DePavia, Sudharsan Sundar, Brando Miranda,
- Abstract要約: 本研究では,Task2Vecに基づくアライメント係数を用いて,トレーニングデータと評価データとのアライメントが下流の性能に与える影響を定量化する。
モデルのトレーニングと評価データのアライメント係数と,各下流タスクにおけるモデルの損失/複雑度との間には,強い負の相関関係が認められた。
- 参考スコア(独自算出の注目度): 1.2564343689544843
- License:
- Abstract: Contrary to the conventional emphasis on dataset size, we explore the role of data alignment -- an often overlooked aspect of data quality -- in training capable Large Language Models (LLMs). To do so, we use the Task2Vec-based alignment coefficient, a quantitative measure of the similarity between two datasets, to quantify the impact of alignment between training data and evaluation data on downstream performance. In particular, we conduct controlled \textit{interventional} experiments for two settings: 1. the impact of increased alignment coefficients between various pre-training (pt) against evaluation datasets, and 2. the impact of increased alignment coefficients between domain specific fine-tuning (ft) against domain specific evaluation. The domain specific task we explore is Autoformalization -- the machine translation task between natural language and code for formal verification. In both settings, we find a strong, predictable negative correlation between the alignment coefficient of a model's training and evaluation data and the model's loss/perplexity on the respective downstream task. These findings suggest a re-evaluation of LLM training approaches, demonstrating the relevance of data alignment compared to data quantity, especially in specialized downstream tasks such as Autoformalization.
- Abstract(参考訳): データセットのサイズに重点を置いているのとは対照的に、大規模言語モデル(LLM)のトレーニングにおいて、データアライメント(データ品質の見落とされがちな側面)が果たす役割について検討する。
そこで我々は,2つのデータセット間の類似度を定量的に測定するTask2Vecに基づくアライメント係数を用いて,トレーニングデータと評価データとのアライメントが下流のパフォーマンスに与える影響を定量化する。
特に、2つの設定に対して制御された \textit{interventional} 実験を行う。
1. 各種事前学習(pt)におけるアライメント係数の増大が評価データセットに及ぼす影響、及び
2) ドメイン固有微調整(ft)におけるアライメント係数の増大が, ドメイン固有評価に及ぼす影響について検討した。
私たちが探しているドメイン固有のタスクは、自動形式化(Autoformalization)です。
いずれの設定においても,モデルのトレーニングおよび評価データのアライメント係数と,各下流タスクにおけるモデルの損失/複雑度との間には,強い負の相関関係が認められた。
これらの結果は,特にオートフォーマル化などの下流業務において,データ量に対するデータアライメントの関連性を示すとともに,LLMトレーニング手法の再評価を示唆している。
関連論文リスト
- In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - In-Context Probing Approximates Influence Function for Data Valuation [16.404477234171733]
そこで本研究では,文脈内探索によるデータ評価が,学習データ選択に影響を及ぼすことを示す。
実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T02:06:56Z) - Word Matters: What Influences Domain Adaptation in Summarization? [43.7010491942323]
本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討する。
本稿では,生成的要約の学習難しさとして,データセット学習の難しさの定量化を提案する。
実験により,データセット学習の難易度を考慮すると,要約タスクにおけるドメイン間オーバーラップと性能向上が近似線形関係を示すことがわかった。
論文 参考訳(メタデータ) (2024-06-21T02:15:49Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。