論文の概要: Beyond Line-Level Filtering for the Pretraining Corpora of LLMs
- arxiv url: http://arxiv.org/abs/2510.24139v1
- Date: Tue, 28 Oct 2025 07:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.828932
- Title: Beyond Line-Level Filtering for the Pretraining Corpora of LLMs
- Title(参考訳): LLMの事前学習コーパスに対するラインレベルフィルタを超えて
- Authors: Chanwoo Park, Suyoung Park, Yelim Ahn, Jongmin Kim, Jongyeon Park, Jaejin Lee,
- Abstract要約: パターン認識行レベル重複(PLD)とパターン認識追従句読取フィルタ(PTF)の2つの方法を紹介する。
提案手法では,行レベルの信号だけでなく,文書間の逐次的な分散も考慮し,構造的に重要なコンテンツを維持できる。
- 参考スコア(独自算出の注目度): 11.296808206277946
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While traditional line-level filtering techniques, such as line-level deduplication and trailing-punctuation filters, are commonly used, these basic methods can sometimes discard valuable content, negatively affecting downstream performance. In this paper, we introduce two methods-pattern-aware line-level deduplication (PLD) and pattern-aware trailing punctuation filtering (PTF)-by enhancing the conventional filtering techniques. Our approach not only considers line-level signals but also takes into account their sequential distribution across documents, enabling us to retain structurally important content that might otherwise be removed. We evaluate these proposed methods by training small language models (1 B parameters) in both English and Korean. The results demonstrate that our methods consistently improve performance on multiple-choice benchmarks and significantly enhance generative question-answering accuracy on both SQuAD v1 and KorQuAD v1.
- Abstract(参考訳): 行レベルの重複や追従変動フィルタといった従来のラインレベルのフィルタリング技術が一般的に用いられているが、これらの基本的な手法は、ダウンストリームのパフォーマンスに悪影響を及ぼす、価値あるコンテンツを捨てることがある。
本稿では,従来のフィルタリング手法の強化により,PLD法とPTF法という2つの手法を導入する。
当社のアプローチでは,行レベルの信号だけでなく,文書間のシーケンシャルな分散も考慮しています。
提案手法は英語と韓国語の両方で小言語モデル(1Bパラメータ)を訓練することで評価する。
その結果,SQuAD v1 と KorQuAD v1 の両方において,提案手法は連続的にマルチ選択ベンチマークの性能を向上し,生成的質問応答精度を著しく向上することがわかった。
関連論文リスト
- Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity [16.521507516831097]
コーパスレベルの項周波数統計量を用いてトークンの先行値を推定する事前データフィルタリング手法を提案する。
PPLの高速プロキシとして,トークン前の平均偏差と標準偏差に基づいて文書をフィルタする手法を提案する。
その単純さにもかかわらず、事前ベースフィルタは、20のダウンストリームベンチマークで最高の平均性能を達成している。
論文 参考訳(メタデータ) (2025-09-23T02:57:29Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Large language model validity via enhanced conformal prediction methods [4.081098869497239]
我々は,大規模言語モデル(LLM)の出力に対する妥当性を保証するための新しい共形推論手法を開発した。
我々は、Gibs et al. (2023) の条件等式手順を一般化し、出力の実用性を維持するために必要なときに、より弱い保証を適応的に発行する。
バイオグラフィーと医学的質問応答データセットに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-14T04:46:39Z) - Focus Your Attention (with Adaptive IIR Filters) [62.80628327613344]
本稿では2次インパルス応答(IIR)フィルタを用いて入力シーケンスを動的に処理する新しい層を提案する。
比較的低次であるにもかかわらず、因果適応フィルタは関連する配列要素に注目することが示されている。
論文 参考訳(メタデータ) (2023-05-24T09:42:30Z) - Unsharp Mask Guided Filtering [53.14430987860308]
本論文の目的は,フィルタ中の構造伝達の重要性を強調した画像フィルタリングである。
アンシャープマスキングにインスパイアされたガイドフィルタの新しい簡易な定式化を提案する。
我々の定式化は低域フィルタに先立ってフィルタを楽しみ、単一の係数を推定することで明示的な構造伝達を可能にする。
論文 参考訳(メタデータ) (2021-06-02T19:15:34Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。