論文の概要: From Macro to Micro: Probing Dataset Diversity in Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.24768v1
- Date: Fri, 30 May 2025 16:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.070027
- Title: From Macro to Micro: Probing Dataset Diversity in Language Model Fine-Tuning
- Title(参考訳): MacroからMicroへ: 言語モデルファインチューニングにおけるデータセットの多様性の探索
- Authors: Haoyu Li, Xuhong Li, Yiming Dong, Kun Liu,
- Abstract要約: この研究は、既存の多様性制御戦略の体系的な分類を提示する。
実験により,117,000個のオープンソースSFTサンプルのコーパスから固定サイズデータセットを構築した。
その結果, マクロ・メソスコピック・ストラテジーは, 多様性の増大とともに高い性能をもたらすが, 応答の微視的ストラテジーは, モデル性能と多様性の程度と, 全戦略にまたがる最大多様性を伴う優れた性能の相関性を示すことがわかった。
- 参考スコア(独自算出の注目度): 10.975514822987403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset diversity plays a pivotal role for the successful training of many machine learning models, particularly in the supervised fine-tuning (SFT) stage of large language model (LLM) development. Despite increasing recognition of its importance, systematic analyses of dataset diversity still remain underexplored. To address this gap, this work presents a systematic taxonomy of existing diversity-control strategies, which primarily focus on the instruction component, operating at either macroscopic (entire instruction semantics) or mesoscopic levels (instruction units), and furthermore introduces a novel analysis of microscopic diversity within the response component, specifically analyzing the statistical distribution of tokens in SFT training samples. In the experimental evaluation, we construct fixed-size datasets (e.g., 10,000 samples each) from a corpus of 117,000 open-source SFT samples, incorporating six distinct diversity-control strategies spanning macro-, meso-, and microscopic levels applied to both instructions and responses. We then fine-tune LLMs on these datasets to assess the six diversity-control strategies. Results reveal that while macroscopic and mesoscopic strategies lead to higher performance with increasing diversity, the microscopic strategy in responses exhibits both a stronger correlation between model performance and the degree of diversity and superior performance with maximum diversity across all strategies. These findings offer actionable insights for constructing high-performance SFT datasets.
- Abstract(参考訳): データセットの多様性は多くの機械学習モデルのトレーニングを成功させる上で、特に大規模言語モデル(LLM)開発における教師付き微調整(SFT)段階において重要な役割を果たす。
その重要性の認識が高まりつつあるにもかかわらず、データセットの多様性の体系的な分析はいまだに過小評価されている。
このギャップに対処するため、本研究は、主に指示成分に焦点を当てた既存の多様性制御戦略の体系的な分類を示し、マクロ(指示意味論)またはメソスコピックレベル(指示単位)で運用し、さらに、SFTトレーニングサンプルにおけるトークンの統計的分布を特に分析する、応答成分内の微妙な多様性の新たな分析を導入する。
実験評価では,117,000個のオープンソースSFTサンプルのコーパスから,マクロレベル,メソレベル,顕微鏡レベルの6つの多様性制御戦略を組み込んだ固定サイズデータセット(例,10,000サンプル)を構築した。
次に、これらのデータセット上のLSMを微調整し、6つの多様性制御戦略を評価する。
その結果, マクロ・メソスコピック・ストラテジーは, 多様性の増大とともに高い性能をもたらすが, 応答の微視的ストラテジーは, モデル性能と多様性の程度と, 全戦略にまたがる最大多様性を伴う優れた性能の相関性を示すことがわかった。
これらの結果は、高性能なSFTデータセット構築のための実用的な洞察を与える。
関連論文リスト
- Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標を提案する。
我々は,NovellSumが精度よく多様性の変動を捉え,命令調整モデルの性能と0.97の相関性が得られることを示す。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - Hierarchical Sparse Bayesian Multitask Model with Scalable Inference for Microbiome Analysis [1.361248247831476]
本稿では,一般的なマルチタスク二元分類学習問題に適用可能な階層型ベイズ的マルチタスク学習モデルを提案する。
後方分布を近似するために,変分推定に基づく計算効率の良い推論アルゴリズムを導出する。
各種合成データセットに対する新しいアプローチの可能性を示し, マイクロバイオームプロファイルに基づくヒトの健康状態の予測を行う。
論文 参考訳(メタデータ) (2025-02-04T18:23:22Z) - Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training [1.3980986259786223]
データセットの多様性が視覚モデルの性能に影響を及ぼすことを示す。
本研究は,テストセットの精度とデータの多様性との間に正の相関関係を示す。
これらの結果は我々の仮説を支持し、形式的なデータの多様性がモデルの性能にどのように影響するかをより深く探究するための有望な方法を示す。
論文 参考訳(メタデータ) (2025-01-15T00:56:59Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。