論文の概要: Data Difficulty and the Generalization--Extrapolation Tradeoff in LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.12906v1
- Date: Wed, 13 May 2026 02:33:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.764796
- Title: Data Difficulty and the Generalization--Extrapolation Tradeoff in LLM Fine-Tuning
- Title(参考訳): LLMファインチューニングにおけるデータ難易度と一般化--エクストラポーレーショントレードオフ
- Authors: Siyuan Liu, Tinghong Chen, Xinghan Li, Yifei Wang, Jingzhao Zhang,
- Abstract要約: 教師付き微調整中のデータ選択は、大規模言語モデル(LLM)の振る舞いを批判的に変えることができる
本研究では,実験と理論の両方の観点から,データの微調整における難易度の役割について検討する。
固定データ予算では、SFTに最適なデータ困難が存在し、データ予算が増加するにつれて、この最適な困難はより難しいデータへと移行することを示す。
- 参考スコア(独自算出の注目度): 21.945877611442867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data selection during supervised fine-tuning (SFT) can critically change the behavior of large language models (LLMs). Although existing work has studied the effect of selecting data based on heuristics such as perplexity, difficulty, or length, the reported findings are often inconsistent or context-dependent. In this work, we systematically study the role of data difficulty in fine-tuning from both empirical and theoretical perspectives, and find that there is no universally optimal difficulty level; rather, its effectiveness depends on the dataset size. We show that for a fixed data budget, there exists an optimal data difficulty for SFT, and that this optimal difficulty shifts toward harder data as the data budget increases. To explain this phenomenon, we conduct controlled synthetic experiments that reveal a simple underlying mechanism: the interplay between the (in-distribution) generalization gap and the extrapolation gap. We further support this mechanism through a theoretical analysis using PAC-Bayesian generalization bounds. Overall, our results clarify how data size and difficulty jointly affect the trade-off between generalization and extrapolation in SFT, providing guidance for difficulty-based data selection under certain model and data conditions.
- Abstract(参考訳): 教師付き微調整(SFT)中のデータ選択は、大きな言語モデル(LLM)の振る舞いを批判的に変更することができる。
既存の研究は、難易度、難易度、長さなどのヒューリスティックスに基づいたデータ選択の効果について研究してきたが、報告された結果はしばしば矛盾または文脈依存である。
本研究では,実験と理論の両方の観点から,データの微調整におけるデータの難易度の役割を体系的に研究し,普遍的に最適な難易度が存在しないことを確認する。
固定データ予算では、SFTに最適なデータ困難が存在し、データ予算が増加するにつれて、この最適な困難はより難しいデータへと移行することを示す。
この現象を説明するために、我々は単純なメカニズムである(分布内)一般化ギャップと外挿ギャップとの相互作用を明らかにする制御された合成実験を行った。
我々は、PAC-ベイジアン一般化境界を用いた理論的解析により、このメカニズムをさらに支持する。
以上の結果から,データサイズと難易度がSFTの一般化と外挿のトレードオフにどのように影響するかを明らかにするとともに,特定のモデルとデータ条件下での難易度に基づくデータ選択のガイダンスを提供する。
関連論文リスト
- Beyond Real Data: Synthetic Data through the Lens of Regularization [9.459299281438074]
合成データは、実際のデータが不足しているときに一般化を改善することができるが、過度な依存は、性能を低下させる分布ミスマッチをもたらす可能性がある。
本稿では,合成データと実データとのトレードオフを定量化する学習理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T11:33:09Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Do-PFN: In-Context Learning for Causal Effect Estimation [75.62771416172109]
予備データ適合ネットワーク(PFN)は, 合成データに基づいて事前学習を行い, 結果を予測する。
提案手法により,基礎となる因果グラフの知識を必要とせず,因果効果の正確な推定が可能となる。
論文 参考訳(メタデータ) (2025-06-06T12:43:57Z) - The Data Addition Dilemma [4.869513274920574]
医療タスクのための多くの機械学習では、標準データセットは、多くの、基本的に異なるソースにまたがるデータを集約することによって構築される。
しかし、いつより多くのデータを追加することが助けになるのか、いつ、実際の設定で望ましいモデル結果の進行を妨げるのか?
この状況をtextitData Addition Dilemma と認識し、このマルチソーススケーリングコンテキストにトレーニングデータを追加すると、全体的な精度が低下し、不確実なフェアネスの結果が減少し、最悪のサブグループのパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2024-08-08T01:42:31Z) - Data Sampling Affects the Complexity of Online SGD over Dependent Data [54.92366535993012]
本研究では,データサンプリング方式の違いが,高依存データに対するオンライン勾配勾配勾配の複雑さにどのように影響するかを示す。
データサンプルのサブサンプリングさえも、高度に依存したデータに対するオンラインSGDの収束を加速することができる。
論文 参考訳(メタデータ) (2022-03-31T07:48:30Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。