論文の概要: Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets
- arxiv url: http://arxiv.org/abs/2602.14536v1
- Date: Mon, 16 Feb 2026 07:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.327525
- Title: Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets
- Title(参考訳): LLM微調整データセットのための説明可能なトークンレベルノイズフィルタ
- Authors: Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren,
- Abstract要約: XTFは説明可能なトークンレベルのノイズフィルタリングフレームワークである。
XTFは、通常の微調整に比べて、ダウンストリーム性能を最大13.7%向上させることができる。
- 参考スコア(独自算出の注目度): 46.275971836374026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have seen remarkable advancements, achieving state-of-the-art results in diverse applications. Fine-tuning, an important step for adapting LLMs to specific downstream tasks, typically involves further training on corresponding datasets. However, a fundamental discrepancy exists between current fine-tuning datasets and the token-level optimization mechanism of LLMs: most datasets are designed at the sentence-level, which introduces token-level noise, causing negative influence to final performance. In this paper, we propose XTF, an explainable token-level noise filtering framework. XTF decomposes the complex and subtle contributions of token-level data to the fine-tuning process into three distinct and explicit attributes (reasoning importance, knowledge novelty, and task relevance), which can be assessed using scoring methods, and then masks the gradients of selected noisy tokens accordingly to optimize the performance of fine-tuned LLMs. We conduct extensive experiments on three representative downstream tasks (math, code and medicine) across 7 mainstream LLMs. The results demonstrate that XTF can significantly improve downstream performance by up to 13.7% compared to regular fine-tuning. Our work highlights the importance of token-level dataset optimization, and demonstrates the potential of strategies based on attribute decomposition for explaining complex training mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい進歩を遂げ、様々なアプリケーションで最先端の結果が得られている。
特定の下流タスクにLLMを適用するための重要なステップであるファインチューニングは、典型的には、対応するデータセットのさらなるトレーニングを含む。
しかし、現在の微調整データセットとLLMのトークンレベル最適化メカニズムの間には根本的な相違があり、ほとんどのデータセットは文レベルで設計されており、トークンレベルノイズが発生し、最終的なパフォーマンスに悪影響を及ぼす。
本稿では,トークンレベルのノイズフィルタリングフレームワークであるXTFを提案する。
XTFは、トークンレベルのデータの複雑で微妙なコントリビューションを、スコアリング手法を用いて評価できる3つの異なる明示的な属性(重要性、知識の新規性、タスク関連性)に分解し、選択されたノイズトークンの勾配を隠蔽し、微調整LDMの性能を最適化する。
我々は7つの主要なLCMを対象とした3つの下流タスク(マス、コード、医療)について広範な実験を行った。
その結果、XTFは通常の微調整に比べて、ダウンストリーム性能を最大13.7%向上させることができることがわかった。
本研究は,トークンレベルのデータセット最適化の重要性を強調し,複雑なトレーニング機構を説明するための属性分解に基づく戦略の可能性を示す。
関連論文リスト
- Fine-Tuning Causal LLMs for Text Classification: Embedding-Based vs. Instruction-Based Approaches [0.0]
我々は、リソース制約下での下流テキスト分類のためのLLM(Large Language Models)を微調整する戦略について検討する。
1)事前訓練した因果LLMに分類ヘッドをアタッチしてタスクを微調整し,(2)分類のためのプロンプト>応答形式でLSMを指導する,という2つの手法を検討した。
論文 参考訳(メタデータ) (2025-12-14T13:02:06Z) - Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM [51.21051698747157]
大規模言語モデル(LLM)の教師付き微調整のための自己適応型勾配対応データ選択手法(GrADS)を提案する。
具体的には、勾配の大きさと統計的分布を利用した自己指導型基準を設計し、モデルの学習プロセスに最も寄与する例を優先する。
GrADSは、医学、法学、金融など様々な分野にまたがる様々なLLMの広範な実験を通じて、大幅な効率性と費用対効果を示してきた。
論文 参考訳(メタデータ) (2025-11-07T08:34:50Z) - SLearnLLM: A Self-Learning Framework for Efficient Domain-Specific Adaptation of Large Language Models [7.44035983292392]
人間の学習パターンにインスパイアされた大規模言語モデル(LLM)のための自己学習フレームワークを提案する。
このフレームワークは特定のドメインの細調整(SFT)データセットを入力として取り込む。
また,本手法は,全データセットの微調整で得られたものと比較して,トレーニング時間を大幅に短縮することを示す。
論文 参考訳(メタデータ) (2025-05-23T04:50:54Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。