論文の概要: Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity
- arxiv url: http://arxiv.org/abs/2509.18577v2
- Date: Mon, 29 Sep 2025 02:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.585258
- Title: Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity
- Title(参考訳): 事前ベースノイズの多いテキストデータフィルタリング:パープレキシティの高速かつ強力な代替手段
- Authors: Yeongbin Seo, Gayoung Kim, Jaehyung Kim, Jinyoung Yeo,
- Abstract要約: コーパスレベルの項周波数統計量を用いてトークンの先行値を推定する事前データフィルタリング手法を提案する。
PPLの高速プロキシとして,トークン前の平均偏差と標準偏差に基づいて文書をフィルタする手法を提案する。
その単純さにもかかわらず、事前ベースフィルタは、20のダウンストリームベンチマークで最高の平均性能を達成している。
- 参考スコア(独自算出の注目度): 16.521507516831097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are pretrained on massive web corpora, careful selection of data becomes essential to ensure effective and efficient learning. While perplexity (PPL)-based filtering has shown strong performance, it suffers from drawbacks: substantial time costs and inherent unreliability of the model when handling noisy or out-of-distribution samples. In this work, we propose a simple yet powerful alternative: a prior-based data filtering method that estimates token priors using corpus-level term frequency statistics, inspired by linguistic insights on word roles and lexical density. Our approach filters documents based on the mean and standard deviation of token priors, serving as a fast proxy to PPL while requiring no model inference. Despite its simplicity, the prior-based filter achieves the highest average performance across 20 downstream benchmarks, while reducing time cost by over 1000x compared to PPL-based filtering. We further demonstrate its applicability to symbolic languages such as code and math, and its dynamic adaptability to multilingual corpora without supervision
- Abstract(参考訳): 大規模言語モデル (LLM) が大量のWebコーパスで事前訓練されているため, 効率的な学習を実現するためには, 慎重なデータ選択が不可欠である。
パープレキシティ(PPL)ベースのフィルタリングは高い性能を示したが、ノイズやアウト・オブ・ディストリビューションのサンプルを扱う場合、相当な時間コストとモデル固有の信頼性の欠如という欠点に悩まされている。
本研究では,単語の役割や語彙密度に関する言語的な洞察に触発されて,コーパスレベルの項頻度統計を用いてトークンの先行値を推定する,従来のデータフィルタリング手法を提案する。
提案手法は,PPLの高速プロキシとして機能し,モデル推論を必要とせず,トークン先行値の平均偏差と標準偏差に基づいて文書をフィルタリングする。
その単純さにもかかわらず、従来のフィルタは20のダウンストリームベンチマークで最高の平均性能を達成し、PPLベースのフィルタに比べて1000倍以上のコスト削減を実現している。
さらに,コードや数学などの記号型言語への適用性や,教師なし多言語コーパスへの動的適応性を示す。
関連論文リスト
- GLiClass: Generalist Lightweight Model for Sequence Classification Tasks [49.2639069781367]
本稿では,シーケンス分類タスクにGLiNERアーキテクチャを適用する新しい手法であるGLiClassを提案する。
提案手法は,ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持しつつ,埋め込み方式に匹敵する高い精度と効率を実現する。
論文 参考訳(メタデータ) (2025-08-11T06:22:25Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [1.6816171955882597]
PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。
単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、選択のための人または判断に基づくスコアをなくし、変種の中から選択する。
PMPOは、BBHで最高平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上上げる。
論文 参考訳(メタデータ) (2025-05-22T06:59:10Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。
プルーニングプロセス自体を最適化するためには、パラメータの代わりにサーバとクライアントの間でしきい値だけが通信される。
グローバルしきい値は、集約されたパラメータの重要度を抽出することで、モデルパラメータの更新に使用される。
論文 参考訳(メタデータ) (2024-06-01T13:10:35Z) - Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning [43.10197671420528]
より小さく弱いモデルを使って、より大きくより強いモデルを微調整できるだろうか?
これにより、より小さく、より効率的なモデルを使用して、より大きな言語モデルをトレーニングするために使用される命令データをフィルタリングすることができる。
主にデータフィルタリングを高速化するだけでなく、フィルタリングされたデータ精細のLLMは、標準ベンチマークでさらにパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-02-01T11:57:53Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。