論文の概要: Data Selection for Fine-tuning Large Language Models Using Transferred
Shapley Values
- arxiv url: http://arxiv.org/abs/2306.10165v1
- Date: Fri, 16 Jun 2023 20:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 23:53:57.420572
- Title: Data Selection for Fine-tuning Large Language Models Using Transferred
Shapley Values
- Title(参考訳): 伝達シェープ値を用いた微調整大言語モデルのデータ選択
- Authors: Stephanie Schoch, Ritwick Mishra, Yangfeng Ji
- Abstract要約: 本稿では,Shapleyに基づくデータ評価の計算コストを削減するアルゴリズムTS-DShapleyを提案する。
ベンチマーク自然言語理解(NLU)データセット上での細調整BERTベースの言語モデルの選択データに対するTS-DShapleyの適用実験は、TS-DShapleyが既存のデータ選択方法より優れていることを示している。
- 参考スコア(独自算出の注目度): 10.53825744656208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Shapley values have been shown to be highly effective for
identifying harmful training instances, dataset size and model complexity
constraints limit the ability to apply Shapley-based data valuation to
fine-tuning large pre-trained language models. To address this, we propose
TS-DShapley, an algorithm that reduces computational cost of Shapley-based data
valuation through: 1) an efficient sampling-based method that aggregates
Shapley values computed from subsets for valuation of the entire training set,
and 2) a value transfer method that leverages value information extracted from
a simple classifier trained using representations from the target language
model. Our experiments applying TS-DShapley to select data for fine-tuning
BERT-based language models on benchmark natural language understanding (NLU)
datasets show that TS-DShapley outperforms existing data selection methods.
Further, TS-DShapley can filter fine-tuning data to increase language model
performance compared to training with the full fine-tuning dataset.
- Abstract(参考訳): Shapleyの値は、有害なトレーニングインスタンスを特定するのに非常に効果的であることが示されているが、データセットのサイズとモデルの複雑さの制約は、Shapleyベースのデータバリュエーションを大規模なトレーニング済み言語モデルに微調整する能力を制限する。
そこで我々は,Shapleyに基づくデータ評価の計算コストを削減するアルゴリズムTS-DShapleyを提案する。
1)トレーニングセット全体の評価のためにサブセットから計算したシャプリー値を集約する効率的なサンプリングベース手法
2)対象言語モデルからの表現を用いて訓練された単純な分類器から抽出した値情報を利用する値伝達手法。
ベンチマーク自然言語理解(NLU)データセットを用いた細調整BERT言語モデルのためのデータ選択にTS-DShapleyを適用した実験により,TS-DShapleyが既存のデータ選択法より優れていることが示された。
さらに、TS-DShapleyは、完全な微調整データセットによるトレーニングと比較して、微調整データをフィルタリングして言語モデルのパフォーマンスを向上させることができる。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
本稿では,モデル学習におけるモデル精度に基づく各データサブセットの有用性を近似したCHG Shapleyを提案する。
リアルタイムデータ選択にはCHG Shapleyを用い,その有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T16:48:31Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits [7.335578524351567]
データクリーニングは、トレーニングデータセットから有害なインスタンスのセットを取り除き、モデルパフォーマンスを改善することを目的としている。
Data Shapleyは、モデルパフォーマンスに対する各インスタンスのコントリビューションを評価するための、理論的に保証される一般的な方法である。
本稿では、閾値帯域幅アルゴリズムを用いて、低データのShapley値を持つインスタンスのサブセットを高速に識別する反復手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T04:17:48Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Process for Adapting Language Models to Society (PALMS) with
Values-Targeted Datasets [0.0]
言語モデルは有害で偏りのある出力を生成し、望ましくない振る舞いを示すことができる。
本稿では,言語モデルから社会への適応プロセス(PALMS)を提案する。
言語モデルの振る舞いを著しく調整することは、手書きの小さなデータセットで実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-18T19:38:28Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。