論文の概要: Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora
- arxiv url: http://arxiv.org/abs/2409.09613v1
- Date: Sun, 15 Sep 2024 05:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:07:53.439427
- Title: Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora
- Title(参考訳): KenLMを再考する: 大きなWebコーパスにおける効率的なテキスト品質フィルタリングのための良いモデルと悪いモデルアンサンブル
- Authors: Yungi Kim, Hyunsoo Ha, Sukyung Lee, Jihoo Kim, Seonghoon Yang, Chanjun Park,
- Abstract要約: 我々は、2つの対照的なKenLM(GoodとBad KenLM)を利用するアンサンブルアプローチを提案する。
実験の結果,提案手法は高品質なコンテンツを保存しながら,ノイズを著しく低減することがわかった。
このことから,本手法は資源制約環境における計算オーバーヘッドを最小限に抑えた実用的な手法である可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.060383637820238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing demand for substantial amounts of high-quality data to train large language models (LLMs), efficiently filtering large web corpora has become a critical challenge. For this purpose, KenLM, a lightweight n-gram-based language model that operates on CPUs, is widely used. However, the traditional method of training KenLM utilizes only high-quality data and, consequently, does not explicitly learn the linguistic patterns of low-quality data. To address this issue, we propose an ensemble approach that leverages two contrasting KenLMs: (i) Good KenLM, trained on high-quality data; and (ii) Bad KenLM, trained on low-quality data. Experimental results demonstrate that our approach significantly reduces noisy content while preserving high-quality content compared to the traditional KenLM training method. This indicates that our method can be a practical solution with minimal computational overhead for resource-constrained environments.
- Abstract(参考訳): 大規模言語モデル(LLM)を訓練するための大量の高品質なデータに対する需要が高まっているため、大規模なWebコーパスを効率的にフィルタリングすることが重要な課題となっている。
この目的のために、CPU上で動作する軽量n-gramベースの言語モデルであるKenLMが広く使われている。
しかし、従来のKenLMの訓練方法は高品質のデータのみを利用しており、その結果、低品質データの言語パターンを明示的に学ばない。
この問題に対処するために、2つの対照的なKenLMを利用するアンサンブルアプローチを提案する。
一 良質なデータで訓練された善良なKenLM
(II)Bad KenLM、低品質データのトレーニング。
実験の結果,従来のKenLM学習法と比較して,高品質なコンテンツを保存する一方で,ノイズの低減が図られた。
このことから,本手法は資源制約環境における計算オーバーヘッドを最小限に抑えた実用的な手法である可能性が示唆された。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining [31.176432567292093]
本稿では,画像テキストペアの品質を動的に評価・向上するAdaptive Image-Text Quality Enhancer (AITQE)を提案する。
AITQEは低品質のペアに対してテキスト書き換え機構を採用し、評価能力を向上させるために負のサンプル学習戦略を取り入れている。
論文 参考訳(メタデータ) (2024-10-21T16:32:41Z) - PoliPrompt: A High-Performance Cost-Effective LLM-Based Text Classification Framework for Political Science [1.6967824074619953]
本稿では,大規模言語モデルを活用して分類精度を向上させる3段階のインコンテキスト学習手法を提案する。
我々は,BBCの報道,カバノー最高裁判所の確認,2018年の選挙キャンペーン広告のデータセットを用いて,我々のアプローチを検証する。
その結果, 管理可能な経済コストによる分類F1スコア(ゼロショット分類では+0.36)の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-09-02T21:05:31Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Online Cascade Learning for Efficient Inference over Streams [9.516197133796437]
大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つ。
この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。
我々は,オンラインでカスケードを学習するタスクを模倣学習問題として定式化する。
論文 参考訳(メタデータ) (2024-02-07T01:46:50Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。