Fugu-MT 論文翻訳(概要): An Empirical Exploration in Quality Filtering of Text Data

論文の概要: An Empirical Exploration in Quality Filtering of Text Data

arxiv url: http://arxiv.org/abs/2109.00698v1
Date: Thu, 2 Sep 2021 04:02:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-04 01:26:08.220778
Title: An Empirical Exploration in Quality Filtering of Text Data
Title（参考訳）: テキストデータの品質フィルタリングにおける実証的探索
Authors: Leo Gao
Abstract要約: GPT型言語モデルにおいて、アグレッシブフィルタリングは、幅広い下流タスクにおけるモデル品質の低下につながることが判明した。これは、プロキシメトリックに対して十分に強く最適化することが、真の目的に対するパフォーマンスを損なうためである、と推測する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While conventional wisdom suggests that more aggressively filtering data from low-quality sources like Common Crawl always monotonically improves the quality of training data, we find that aggressive filtering can in fact lead to a decrease in model quality on a wide array of downstream tasks for a GPT-like language model. We speculate that this is because optimizing sufficiently strongly for a proxy metric harms performance on the true objective, suggesting a need for more robust filtering objectives when attempting to filter more aggressively. We hope this work leads to detailed analysis of the effects of dataset filtering design choices on downstream model performance in future work.
Abstract（参考訳）: 従来の知見では、コモンクロールのような低品質ソースからのデータをより積極的にフィルタリングすることはトレーニングデータの品質を常に単調に改善することを示唆しているが、アグレッシブフィルタリングはgptライクな言語モデルのための幅広い下流タスクのモデル品質を低下させる可能性がある。これは、プロキシメトリックを十分に強く最適化することが、真の目的の性能を損なうためであり、より積極的にフィルタリングしようとする際に、より堅牢なフィルタリング目的の必要性が示唆されるためである。この作業が、今後の作業におけるダウンストリームモデルパフォーマンスに対するデータセットフィルタリング設計選択の影響の詳細な分析につながることを願っている。

関連論文リスト

OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
ResoFilter: Fine-grained Synthetic Data Filtering for Large Language Models through Data-Parameter Resonance Analysis [11.300050385809586]
モデル,データ,タスクを統合してデータセットを洗練するための新しい手法であるResoFilterを提案する。我々の実験は、ResoFilterがフルスケールの微調整に匹敵する結果が得られることを示した。この方法は、合成データセットの構築と高品質なデータ評価に有用な洞察を提供する。
論文参考訳（メタデータ） (2024-12-19T12:57:47Z)
ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文参考訳（メタデータ） (2024-08-15T17:59:30Z)
Filtered Direct Preference Optimization [7.060398061192042]
人間からのフィードバックからの強化学習(RLHF)は、言語モデルと人間の嗜好の整合において重要な役割を果たす。本稿では、直接選好最適化(DPO)に着目して、選好データセットにおけるテキスト品質の問題に対処する。フィルタされた直接選好最適化(fDPO)と呼ばれるDPOの拡張を提案する。
論文参考訳（メタデータ） (2024-04-22T03:05:19Z)
From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [19.070305201045954]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文参考訳（メタデータ） (2024-04-16T05:29:14Z)
Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning [43.10197671420528]
より小さく弱いモデルを使って、より大きくより強いモデルを微調整できるだろうか? これにより、より小さく、より効率的なモデルを使用して、より大きな言語モデルをトレーニングするために使用される命令データをフィルタリングすることができる。主にデータフィルタリングを高速化するだけでなく、フィルタリングされたデータ精細のLLMは、標準ベンチマークでさらにパフォーマンスが向上する。
論文参考訳（メタデータ） (2024-02-01T11:57:53Z)
DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文参考訳（メタデータ） (2024-01-23T17:22:00Z)
Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文参考訳（メタデータ） (2023-09-29T17:37:29Z)
Filter-enhanced MLP is All You Need for Sequential Recommendation [89.0974365344997]
オンラインプラットフォームでは、ログされたユーザの行動データはノイズを含まないことは避けられない。周波数領域の雑音を減衰させる信号処理から,フィルタアルゴリズムのアイデアを借用する。逐次レコメンデーションタスクのための学習可能なフィルタを備えたオールMLPモデルである textbfFMLP-Rec を提案する。
論文参考訳（メタデータ） (2022-02-28T05:49:35Z)
Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文参考訳（メタデータ） (2020-05-06T07:41:22Z)
Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文参考訳（メタデータ） (2020-02-10T21:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。