論文の概要: Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets
- arxiv url: http://arxiv.org/abs/2602.14536v1
- Date: Mon, 16 Feb 2026 07:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.327525
- Title: Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets
- Title(参考訳): LLM微調整データセットのための説明可能なトークンレベルノイズフィルタ
- Authors: Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren,
- Abstract要約: XTFは説明可能なトークンレベルのノイズフィルタリングフレームワークである。
XTFは、通常の微調整に比べて、ダウンストリーム性能を最大13.7%向上させることができる。
- 参考スコア(独自算出の注目度): 46.275971836374026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have seen remarkable advancements, achieving state-of-the-art results in diverse applications. Fine-tuning, an important step for adapting LLMs to specific downstream tasks, typically involves further training on corresponding datasets. However, a fundamental discrepancy exists between current fine-tuning datasets and the token-level optimization mechanism of LLMs: most datasets are designed at the sentence-level, which introduces token-level noise, causing negative influence to final performance. In this paper, we propose XTF, an explainable token-level noise filtering framework. XTF decomposes the complex and subtle contributions of token-level data to the fine-tuning process into three distinct and explicit attributes (reasoning importance, knowledge novelty, and task relevance), which can be assessed using scoring methods, and then masks the gradients of selected noisy tokens accordingly to optimize the performance of fine-tuned LLMs. We conduct extensive experiments on three representative downstream tasks (math, code and medicine) across 7 mainstream LLMs. The results demonstrate that XTF can significantly improve downstream performance by up to 13.7% compared to regular fine-tuning. Our work highlights the importance of token-level dataset optimization, and demonstrates the potential of strategies based on attribute decomposition for explaining complex training mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい進歩を遂げ、様々なアプリケーションで最先端の結果が得られている。
特定の下流タスクにLLMを適用するための重要なステップであるファインチューニングは、典型的には、対応するデータセットのさらなるトレーニングを含む。
しかし、現在の微調整データセットとLLMのトークンレベル最適化メカニズムの間には根本的な相違があり、ほとんどのデータセットは文レベルで設計されており、トークンレベルノイズが発生し、最終的なパフォーマンスに悪影響を及ぼす。
本稿では,トークンレベルのノイズフィルタリングフレームワークであるXTFを提案する。
XTFは、トークンレベルのデータの複雑で微妙なコントリビューションを、スコアリング手法を用いて評価できる3つの異なる明示的な属性(重要性、知識の新規性、タスク関連性)に分解し、選択されたノイズトークンの勾配を隠蔽し、微調整LDMの性能を最適化する。
我々は7つの主要なLCMを対象とした3つの下流タスク(マス、コード、医療)について広範な実験を行った。
その結果、XTFは通常の微調整に比べて、ダウンストリーム性能を最大13.7%向上させることができることがわかった。
本研究は,トークンレベルのデータセット最適化の重要性を強調し,複雑なトレーニング機構を説明するための属性分解に基づく戦略の可能性を示す。
関連論文リスト
- Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。