論文の概要: Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance
- arxiv url: http://arxiv.org/abs/2506.06522v1
- Date: Fri, 06 Jun 2025 20:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.309227
- Title: Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance
- Title(参考訳): ポストで固定する: LLM後のデータ品質とモデル性能の比較研究
- Authors: Aladin Djuhera, Swanand Ravindra Kadhe, Syed Zawad, Farhan Ahmed, Heiko Ludwig, Holger Boche,
- Abstract要約: 我々は、Tulu-3-SFT-MixとSmolTalkという2つの著名なオープントレーニング後のデータセットを総合的に分析した。
構造的および質的な類似点と2つのデータセットの違いを明らかにする統計を導出する。
我々の発見は、より効果的なトレーニング後のデータセットを構築するための実用的な洞察を提供する。
- 参考スコア(独自算出の注目度): 38.362162910767466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on large language models (LLMs) has increasingly focused on post-training and alignment with datasets curated to enhance instruction following, world knowledge, and specialized skills. However, most post-training datasets used in leading open- and closed-source LLMs remain inaccessible to the public, with limited information about their construction process. This lack of transparency has motivated the recent development of open-source post-training corpora. While training on these open alternatives can yield performance comparable to that of leading models, systematic comparisons remain challenging due to the significant computational cost of conducting them rigorously at scale, and are therefore largely absent. As a result, it remains unclear how specific samples, task types, or curation strategies influence downstream performance when assessing data quality. In this work, we conduct the first comprehensive side-by-side analysis of two prominent open post-training datasets: Tulu-3-SFT-Mix and SmolTalk. Using the Magpie framework, we annotate each sample with detailed quality metrics, including turn structure (single-turn vs. multi-turn), task category, input quality, and response quality, and we derive statistics that reveal structural and qualitative similarities and differences between the two datasets. Based on these insights, we design a principled curation recipe that produces a new data mixture, TuluTalk, which contains 14% fewer samples than either source dataset while matching or exceeding their performance on key benchmarks. Our findings offer actionable insights for constructing more effective post-training datasets that improve model performance within practical resource limits. To support future research, we publicly release both the annotated source datasets and our curated TuluTalk mixture.
- Abstract(参考訳): 大規模言語モデル(LLMs)に関する最近の研究は、後続の訓練と、後続の指導、世界的知識、専門的なスキルを高めるためにキュレーションされたデータセットとの整合性にますます焦点を絞っている。
しかし、主要なオープンソースおよびクローズドソース LLM で使用されるほとんどのポストトレーニングデータセットは、その構築プロセスに関する限られた情報を持って、一般にはアクセスできないままである。
この透明性の欠如は、最近のオープンソースのポストトレーニングコーパスの開発を動機付けている。
これらのオープンな代替品のトレーニングは、主要なモデルに匹敵する性能が得られるが、大規模で厳密な計算コストのため、体系的な比較は依然として困難であり、そのためほとんど欠落している。
その結果、データ品質を評価する際に、特定のサンプル、タスクタイプ、またはキュレーション戦略が下流のパフォーマンスにどのように影響するかは、まだ不明である。
本研究では,Turu-3-SFT-Mix と SmolTalk という2つの著名なオープントレーニング後データセットの総合的なサイドバイサイド分析を行う。
Magpieフレームワークを使用して、各サンプルにターン構造(シングルターン対マルチターン)、タスクカテゴリ、入力品質、レスポンス品質などの詳細な品質指標をアノテートする。
これらの知見に基づいて、我々は、新しいデータミックスであるTuluTalkを生成する原則化されたキュレーションレシピを設計する。
本研究は,実践的なリソース制限下でのモデル性能向上を目的とした,より効果的なトレーニング後データセット構築のための実用的な洞察を提供する。
今後の研究をサポートするため、アノテーション付きソースデータセットと、キュレートしたTuluTalkミックスの両方を公開しています。
関連論文リスト
- Unsupervised Topic Models are Data Mixers for Pre-training Language Models [6.77198566340415]
大規模言語モデル(LLM)のためのトピックベースのデータ混合戦略を提案する。
DataWeaveは、セマンティックに類似したドキュメントをグループ化するために、マルチステージクラスタリングプロセスを採用している。
我々は、サイエンスとリレーションシップのトピックが特に効果的であることを確認し、最も実質的なパフォーマンス改善をもたらす。
論文 参考訳(メタデータ) (2025-02-24T03:25:56Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。