Fugu-MT 論文翻訳(概要): Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora

論文の概要: Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora

arxiv url: http://arxiv.org/abs/2409.09613v1
Date: Sun, 15 Sep 2024 05:27:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 20:07:53.439427
Title: Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora
Title（参考訳）: KenLMを再考する: 大きなWebコーパスにおける効率的なテキスト品質フィルタリングのための良いモデルと悪いモデルアンサンブル
Authors: Yungi Kim, Hyunsoo Ha, Sukyung Lee, Jihoo Kim, Seonghoon Yang, Chanjun Park,
Abstract要約: 我々は、2つの対照的なKenLM(GoodとBad KenLM)を利用するアンサンブルアプローチを提案する。実験の結果,提案手法は高品質なコンテンツを保存しながら,ノイズを著しく低減することがわかった。このことから,本手法は資源制約環境における計算オーバーヘッドを最小限に抑えた実用的な手法である可能性が示唆された。
参考スコア（独自算出の注目度）: 2.060383637820238
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the increasing demand for substantial amounts of high-quality data to train large language models (LLMs), efficiently filtering large web corpora has become a critical challenge. For this purpose, KenLM, a lightweight n-gram-based language model that operates on CPUs, is widely used. However, the traditional method of training KenLM utilizes only high-quality data and, consequently, does not explicitly learn the linguistic patterns of low-quality data. To address this issue, we propose an ensemble approach that leverages two contrasting KenLMs: (i) Good KenLM, trained on high-quality data; and (ii) Bad KenLM, trained on low-quality data. Experimental results demonstrate that our approach significantly reduces noisy content while preserving high-quality content compared to the traditional KenLM training method. This indicates that our method can be a practical solution with minimal computational overhead for resource-constrained environments.
Abstract（参考訳）: 大規模言語モデル(LLM)を訓練するための大量の高品質なデータに対する需要が高まっているため、大規模なWebコーパスを効率的にフィルタリングすることが重要な課題となっている。この目的のために、CPU上で動作する軽量n-gramベースの言語モデルであるKenLMが広く使われている。しかし、従来のKenLMの訓練方法は高品質のデータのみを利用しており、その結果、低品質データの言語パターンを明示的に学ばない。この問題に対処するために、2つの対照的なKenLMを利用するアンサンブルアプローチを提案する。一良質なデータで訓練された善良なKenLM (II)Bad KenLM、低品質データのトレーニング。実験の結果,従来のKenLM学習法と比較して,高品質なコンテンツを保存する一方で,ノイズの低減が図られた。このことから,本手法は資源制約環境における計算オーバーヘッドを最小限に抑えた実用的な手法である可能性が示唆された。

関連論文リスト

Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality [5.750869893508341]
視覚言語モデル(VLM)は、視覚データを統合することで従来の大規模言語モデルを拡張し、よりリッチなマルチモーダル推論を可能にする。高品質な画像キャプチャアノテートデータセットを微調整した,コンパクトなVLMを用いた合理化データフィルタリングフレームワークを提案する。このモデルは、キャプションと画像品質とアライメントに基づいて、潜在的トレーニングサンプルを効果的に評価し、フィルタリングする。
論文参考訳（メタデータ） (2025-07-27T07:20:25Z)
Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data [43.539306138403695]
LLMトレーニングにおけるデータの影響を迅速に評価できる効率的な検証戦略を提案する。本稿では,効率的なデータフィルタリングパイプラインを提案し,フィルタ効率を向上し,実験と推論のコストを削減する。フィルタリングパイプラインを、広く使われている2つの事前学習コーパス、FinWebと中国のFinWebデータセットに適用することに成功しました。
論文参考訳（メタデータ） (2025-05-08T17:15:20Z)
BREEN: Bridge Data-Efficient Encoder-Free Multimodal Learning with Learnable Queries [37.37905881898424]
マルチモーダル大言語モデル(MLLM)は、言語モデルの前に画像トークンを直接処理することで、よく訓練された視覚エンコーダの必要性をなくす。視覚エンコーダが存在しないことは、モデルが必要な視覚的・意味的なアライメントを学習するために、かなりのデータに依存する可能性が高いことを示唆している。この問題を緩和するデータ効率のよいエンコーダフリーマルチモーダルアーキテクチャであるBREENを提案する。
論文参考訳（メタデータ） (2025-03-16T10:43:14Z)
Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文参考訳（メタデータ） (2025-02-20T10:25:13Z)
Data Quality Enhancement on the Basis of Diversity with Large Language Models for Text Classification: Uncovered, Difficult, and Noisy [5.225010551503337]
本稿では,大規模言語モデル(LLM)に基づくテキスト分類のためのデータ品質向上手法を提案する。実験の結果,本手法はテキスト分類作業におけるLLMの性能を効果的に向上することが示された。提案手法は,いくつかのオープンソース分類タスクにおいて最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-09T15:28:39Z)
Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2024-11-29T18:59:54Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。 LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-11-12T18:57:59Z)
Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining [31.176432567292093]
本稿では,画像テキストペアの品質を動的に評価・向上するAdaptive Image-Text Quality Enhancer (AITQE)を提案する。 AITQEは低品質のペアに対してテキスト書き換え機構を採用し、評価能力を向上させるために負のサンプル学習戦略を取り入れている。
論文参考訳（メタデータ） (2024-10-21T16:32:41Z)
Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
フェデレートラーニング(Federated Learning)は、大きな言語モデルのプライバシ保護と協調的な命令チューニングを可能にする。ローカルクライアントには、トレーニング前にノイズや低品質のサンプルをフィルタリングするグローバルな可視性がない。我々は,動的データ品質制御を備えた新しいフェデレーション・インストラクション・チューニング・フレームワークであるFedDQCを提案する。
論文参考訳（メタデータ） (2024-10-15T12:14:57Z)
PoliPrompt: A High-Performance Cost-Effective LLM-Based Text Classification Framework for Political Science [1.6967824074619953]
本稿では,大規模言語モデルを活用して分類精度を向上させる3段階のインコンテキスト学習手法を提案する。我々は,BBCの報道,カバノー最高裁判所の確認,2018年の選挙キャンペーン広告のデータセットを用いて,我々のアプローチを検証する。その結果, 管理可能な経済コストによる分類F1スコア(ゼロショット分類では+0.36)の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-09-02T21:05:31Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
Offset Unlearning for Large Language Models [49.851093293780615]
delta-Unlearningは、ブラックボックスLLMのためのオフセットのアンラーニングフレームワークである。デルタアンラーニングは、一般的な対物スコープタスクにおいて、類似またはより強い性能を維持しながら、効果的にターゲットデータを解放できることを示す。
論文参考訳（メタデータ） (2024-04-17T03:39:51Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
Online Cascade Learning for Efficient Inference over Streams [9.516197133796437]
大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つ。この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。我々は,オンラインでカスケードを学習するタスクを模倣学習問題として定式化する。
論文参考訳（メタデータ） (2024-02-07T01:46:50Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文参考訳（メタデータ） (2023-10-31T01:08:34Z)
LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。 LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文参考訳（メタデータ） (2023-10-30T14:54:15Z)
VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文参考訳（メタデータ） (2023-05-22T17:51:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。