論文の概要: Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2502.01968v1
- Date: Tue, 04 Feb 2025 03:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:27.984772
- Title: Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning
- Title(参考訳): トケクリーニング:LLM監督微調整のための微粒化データ選択
- Authors: Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu,
- Abstract要約: 事前トレーニングの後、高品質なサンプルであっても、タスク関連のないパターンやフレーズは冗長あるいは非形式的である可能性がある。
本稿では,ノイズ-ラベルの観点からトークンの品質を調査し,SFTタスクのための汎用的なトークンクリーニングパイプラインを提案する。
私たちのフレームワークは、複数のダウンストリームタスクのパフォーマンスを継続的に改善します。
- 参考スコア(独自算出の注目度): 28.334359021165525
- License:
- Abstract: Recent studies show that in supervised fine-tuning (SFT) of large language models (LLMs), data quality matters more than quantity. While most data cleaning methods concentrate on filtering entire samples, the quality of individual tokens within a sample can vary significantly. After pre-training, even in high-quality samples, patterns or phrases that are not task-related can be redundant or uninformative. Continuing to fine-tune on these patterns may offer limited benefit and even degrade downstream task performance. In this paper, we investigate token quality from a noisy-label perspective and propose a generic token cleaning pipeline for SFT tasks. Our method filters out uninformative tokens while preserving those carrying key task-specific information. Specifically, we first evaluate token quality by examining the influence of model updates on each token, then apply a threshold-based separation. The token influence can be measured in a single pass with a fixed reference model or iteratively with self-evolving reference models. The benefits and limitations of both methods are analyzed theoretically by error upper bounds. Extensive experiments show that our framework consistently improves performance across multiple downstream tasks.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(LLM)の教師付き微調整(SFT)において、データ品質は量よりも重要であることが示されている。
ほとんどのデータクリーニング手法は全サンプルのフィルタリングに重点を置いているが、サンプル内の個々のトークンの品質は著しく異なる可能性がある。
事前トレーニングの後、高品質なサンプルであっても、タスク関連のないパターンやフレーズは冗長あるいは非形式的である可能性がある。
これらのパターンを微調整し続けることで、メリットが制限され、ダウンストリームタスクのパフォーマンスが低下する可能性がある。
本稿では,ノイズ-ラベルの観点からトークンの品質を調査し,SFTタスクのための汎用的なトークンクリーニングパイプラインを提案する。
本手法では,キータスク固有の情報を格納したまま,非形式トークンをフィルタリングする。
具体的には、まず、各トークンに対するモデル更新の影響を調べてトークンの品質を評価し、しきい値に基づく分離を適用する。
トークンの影響は、固定参照モデルで1回のパスで測定したり、自己進化参照モデルで反復的に測定することができる。
両手法の利点と限界は、理論的には誤差上界によって解析される。
大規模な実験により、我々のフレームワークは、複数の下流タスクにおけるパフォーマンスを継続的に改善しています。
関連論文リスト
- One-step Noisy Label Mitigation [86.57572253460125]
ノイズラベルのトレーニング過程に対する有害な影響の軽減がますます重要になっている。
モデルに依存しないノイズラベル緩和パラダイムである1ステップアンチノイズ(OSA)を提案する。
我々はOSAの優位性を実証的に実証し、トレーニングの堅牢性の向上、タスク転送性の向上、デプロイメントの容易性、計算コストの削減を強調した。
論文 参考訳(メタデータ) (2024-10-02T18:42:56Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Task-oriented Embedding Counts: Heuristic Clustering-driven Feature Fine-tuning for Whole Slide Image Classification [1.292108130501585]
本稿では,クラスタリング駆動型機能微調整法(HC-FT)を提案する。
提案手法はCAMELYON16とBRACSの両方で評価され,それぞれ97.13%,85.85%のAUCが得られた。
論文 参考訳(メタデータ) (2024-06-02T08:53:45Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Make Every Example Count: On the Stability and Utility of Self-Influence
for Learning from Noisy NLP Datasets [4.142507103595571]
データクリーニングのためのトレーニング例のタスク非依存自己影響スコアの適合性について検討した。
自然発生の異常者を捕獲する効果を解析する。
論文 参考訳(メタデータ) (2023-02-27T17:00:06Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - QActor: On-line Active Learning for Noisy Labeled Stream Data [10.814099534254922]
そこで本研究では,品質モデルによるクリーンなサンプルの選択と,最も情報に富む真のラベルに対する託宣を積極的にクエリするQActorを提案する。
QActorは、データフィルタリングのための品質モデルの利点と、最も情報性の高いデータのクリーニングのためのオラクルクエリを素早く組み合わせます。
QActorの中心的な機能は、各データバッチの学習損失に応じてクエリ制限を動的に調整することである。
論文 参考訳(メタデータ) (2020-01-28T15:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。