Fugu-MT 論文翻訳(概要): Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

論文の概要: Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

arxiv url: http://arxiv.org/abs/2405.20541v1
Date: Thu, 30 May 2024 23:50:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 15:55:52.622498
Title: Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models
Title（参考訳）: パープレクシティによるパープレクシティ:小さな参照モデルによるパープレクシティに基づくデータプルーニング
Authors: Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul,
Abstract要約: 大規模テキストデータセットの高品質なサブセットを小言語モデルで決定できるかどうかを検討する。複数のデータセットの合成において、プレトレーニングデータのパープレキシティに基づくプルーニングは、ダウンストリームタスクのパフォーマンスを著しく改善できることを示す。
参考スコア（独自算出の注目度）: 7.97660105077232
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this work, we investigate whether small language models can determine high-quality subsets of large-scale text datasets that improve the performance of larger language models. While existing work has shown that pruning based on the perplexity of a larger model can yield high-quality data, we investigate whether smaller models can be used for perplexity-based pruning and how pruning is affected by the domain composition of the data being pruned. We demonstrate that for multiple dataset compositions, perplexity-based pruning of pretraining data can \emph{significantly} improve downstream task performance: pruning based on perplexities computed with a 125 million parameter model improves the average performance on downstream tasks of a 3 billion parameter model by up to 2.04 and achieves up to a $1.45\times$ reduction in pretraining steps to reach commensurate baseline performance. Furthermore, we demonstrate that such perplexity-based data pruning also yields downstream performance gains in the over-trained and data-constrained regimes.
Abstract（参考訳）: 本研究では,小規模言語モデルが大規模テキストデータセットの高品質なサブセットを決定できるかどうかを検証し,より大きな言語モデルの性能向上を図る。既存の研究は, 大規模モデルのパープレキシティに基づくプルーニングが高品質なデータが得られることを示したが, パープレキシティに基づくプルーニングにおいて, より小さなモデルが利用できるか, プルーニングがプルーニングされるデータのドメイン構成にどのように影響するかを検討する。 125万のパラメータモデルで計算されたパープレキシティに基づくプルーニングは、30億のパラメータモデルの下流タスクの平均性能を最大2.04倍に改善し、平均ベースライン性能に到達するための事前トレーニングステップを最大1.45ドル削減する。さらに、このような難易度に基づくデータプルーニングは、過度に訓練されたデータ制約されたレシエーションにおいて、下流のパフォーマンス向上をもたらすことを実証する。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
AdaDeDup: Adaptive Hybrid Data Pruning for Efficient Large-Scale Object Detection Training [33.01500681857408]
我々は、密度に基づくプルーニングとモデルインフォームドフィードバックをクラスタ適応的に統合する新しいフレームワークであるAdaptive De-Duplication (AdaDeDup)を紹介した。これは、顕著なベースラインを著しく上回り、性能劣化を著しく低減し、20%のデータを刈り取りながら、ほぼオリジナルに近いモデル性能を達成する。
論文参考訳（メタデータ） (2025-06-24T22:35:51Z)
EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。 EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文参考訳（メタデータ） (2025-06-04T02:11:54Z)
Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。 LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文参考訳（メタデータ） (2025-03-05T05:39:29Z)
Optimize Cardinality Estimation Model Pretraining by Simplifying the Training Datasets [0.0]
既存の事前学習データセットのごく一部に縮小された簡易なトレーニングデータセットを導入する。この単純化されたデータセットに基づく事前訓練された濃度推定器は、ゼロショット設定で既存のモデルに匹敵する性能を達成できることを示す十分な実験結果が得られた。
論文参考訳（メタデータ） (2025-02-20T08:06:16Z)
BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation [71.46236155101032]
現在のデータ生成法は、数万の例を含むシードセットに依存して、命令調整されたモデルを実行している。いくつか例を挙げると、インストラクションチューニングモデルでは、下流タスクの多様性が不十分であることが分かる。本研究では,ベースモデルの多様性と命令調整モデルの品質保証を両立させる新しい2段階手法であるBase-Refineを提案する。
論文参考訳（メタデータ） (2025-02-03T00:12:40Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
STLM Engineering Report: Dropout [4.3600359083731695]
オーバーフィッティングシナリオでは,ドロップアウトが依然として有効であり,過剰なデータであってもモデルの適合性を改善するための何らかの関連性があることが判明した。このプロセスでは、この性能向上の背後にあるメカニズムに関する既存の説明は、言語モデリングでは適用できないことがわかった。
論文参考訳（メタデータ） (2024-09-09T08:24:29Z)
LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文参考訳（メタデータ） (2024-02-17T04:16:30Z)
Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。 AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。トレーニングデータの最大10～30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文参考訳（メタデータ） (2023-12-09T16:01:21Z)
Balancing Act: Constraining Disparate Impact in Sparse Models [20.058720715290434]
本研究では,プルーニングの異なる影響に直接対処する制約付き最適化手法を提案する。我々の定式化は、各部分群に対する密度モデルとスパースモデルの間の精度変化を束縛する。実験により,本手法は大規模モデルや数百の保護されたサブグループに関わる問題に対して確実にスケール可能であることが示された。
論文参考訳（メタデータ） (2023-10-31T17:37:35Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文参考訳（メタデータ） (2023-03-02T21:48:22Z)
Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文参考訳（メタデータ） (2022-09-15T15:41:47Z)
Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文参考訳（メタデータ） (2021-11-09T03:23:05Z)
Improving Zero and Few-Shot Abstractive Summarization with Intermediate Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文参考訳（メタデータ） (2020-10-24T08:36:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。