論文の概要: How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients
- arxiv url: http://arxiv.org/abs/2504.10766v1
- Date: Mon, 14 Apr 2025 23:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:18.371786
- Title: How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients
- Title(参考訳): 学習後のデータ形状のインストラクションと推論方法:レイヤーワイドグラディエントレンズによるデータ品質
- Authors: Ming Li, Yanhong Li, Ziyue Li, Tianyi Zhou,
- Abstract要約: 本稿では,低品質な命令と推論データによって誘導される層次勾配のスペクトル解析を行う。
我々の研究は、データ品質とトレーニング安定性の相互作用を照らし、ポストトレーニングのためのより良いデータ探索戦略を開発するための新しい洞察を隠蔽する。
- 参考スコア(独自算出の注目度): 24.699470675718466
- License:
- Abstract: As the post-training of large language models (LLMs) advances from instruction-following to complex reasoning tasks, understanding how different data affect finetuning dynamics remains largely unexplored. In this paper, we present a spectral analysis of layer-wise gradients induced by low/high-quality instruction and reasoning data for LLM post-training. Our analysis reveals that widely-studied metrics for data evaluation, e.g., IFD, InsTag, Difficulty, and Reward, can be explained and unified by spectral properties computed from gradients' singular value decomposition (SVD). Specifically, higher-quality data are usually associated with lower nuclear norms and higher effective ranks. Notably, effective rank exhibits better robustness and resolution than nuclear norm in capturing subtle quality differences. For example, reasoning data achieves substantially higher effective ranks than instruction data, implying richer gradient structures on more complex tasks. Our experiments also highlight that models within the same family share similar gradient patterns regardless of their sizes, whereas different model families diverge significantly. Providing a unified view on the effects of data quality across instruction and reasoning data, this work illuminates the interplay between data quality and training stability, shedding novel insights into developing better data exploration strategies for post-training.
- Abstract(参考訳): 大規模言語モデル(LLM)のポストトレーニングが、命令追従から複雑な推論タスクへと進むにつれ、異なるデータが微調整力学にどのように影響するかを理解することは、まだ明らかにされていない。
本稿では,LLMポストトレーニングにおける低品質な命令と推論データによって誘導される層次勾配のスペクトル解析について述べる。
解析の結果,勾配の特異値分解(SVD)から計算したスペクトル特性により,データ評価のための広く研究されている指標,例えば,IFD,InsTag,Difficulty,Rewardが説明・統一可能であることがわかった。
特に、高品質のデータは通常、低い核規範と高い有効ランクに関連付けられている。
特に、有効ランクは、微妙な品質差を捉える上で、核標準よりも堅牢性と解像度が優れている。
例えば、推論データは命令データよりもかなり高い効果的なランクを達成し、より複雑なタスクにおけるよりリッチな勾配構造を示唆している。
実験では、同じ家族内のモデルが、サイズに関わらず、同様の勾配パターンを共有しているのに対し、異なるモデルファミリーは、かなりばらつきます。
この研究は、データ品質とトレーニングの安定性の間の相互作用を照らし、ポストトレーニングのためのより良いデータ探索戦略を開発するための新しい洞察を隠蔽する。
関連論文リスト
- Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
フェデレートラーニング(Federated Learning)は、大きな言語モデルのプライバシ保護と協調的な命令チューニングを可能にする。
ローカルクライアントには、トレーニング前にノイズや低品質のサンプルをフィルタリングするグローバルな可視性がない。
我々は,動的データ品質制御を備えた新しいフェデレーション・インストラクション・チューニング・フレームワークであるFedDQCを提案する。
論文 参考訳(メタデータ) (2024-10-15T12:14:57Z) - G-DIG: Towards Gradient-based Diverse and High-quality Instruction Data Selection for Machine Translation [21.506844286376275]
本稿では,機械翻訳のための高品質かつ多様な命令微調整データを自動的に選択する,勾配に基づく新しい手法を提案する。
私たちの重要なイノベーションは、個々のトレーニング例がトレーニング中にモデルにどのように影響するかを分析することです。
論文 参考訳(メタデータ) (2024-05-21T16:38:13Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Diving into Unified Data-Model Sparsity for Class-Imbalanced Graph
Representation Learning [30.23894624193583]
非ユークリッドグラフデータに基づくグラフニューラルネットワーク(GNN)トレーニングは、しばしば比較的高い時間コストに直面する。
グラフ決定(Graph Decantation, GraphDec)と呼ばれる統一されたデータモデル動的疎結合フレームワークを開発し, 大規模なクラス不均衡グラフデータのトレーニングによる課題に対処する。
論文 参考訳(メタデータ) (2022-10-01T01:47:00Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Self-learn to Explain Siamese Networks Robustly [22.913886901196353]
2つのオブジェクトを比較する学習は、特にラベル付きデータが不足している場合、デジタル法医学、顔認識、脳ネットワーク分析で使用される。
これらのアプリケーションは、公正さや不均衡といった社会的価値を含む高い意思決定を行うため、学習されたモデルを説明することが重要である。
論文 参考訳(メタデータ) (2021-09-15T15:28:39Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。