論文の概要: PIKA: Expert-Level Synthetic Datasets for Post-Training Alignment from Scratch
- arxiv url: http://arxiv.org/abs/2510.06670v1
- Date: Wed, 08 Oct 2025 05:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.319965
- Title: PIKA: Expert-Level Synthetic Datasets for Post-Training Alignment from Scratch
- Title(参考訳): PIKA:スクラッチからトレーニング後のアライメントのためのエキスパートレベル合成データセット
- Authors: Shangjian Yin, Shining Liang, Wenbiao Ding, Yuli Qian, Zhouxing Shi, Hongzhi Li, Yutao Xie,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)の整合の基礎となっている。
現在のアプローチは、監督された微調整段階においても300万以上の例に依存していることが多い。
専門家レベルのアライメントデータセットの、データ効率のよいファミリであるPiKaを紹介します。
- 参考スコア(独自算出の注目度): 9.101424430281254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become a cornerstone for aligning large language models (LLMs). However, its effectiveness depends on high-quality instruction data. Most existing alignment datasets are either private or require costly human annotation, which limits reproducibility and scalability. Even with Reinforcement Learning from AI Feedback (RLAIF), concerns about data quality remain. Moreover, it is unclear how much data is actually required to fine-tune a base model into a strong instruction-following model. Current approaches often rely on over 300k examples even at the supervised fine-tuning (SFT) stage, yet they still underperform compared to proprietary models, creating barriers for academic and resource-limited communities. To address this gap, we introduce PiKa, a data-efficient family of expert-level alignment datasets. In particular, the PiKa-SFT dataset uses only 30k SFT examples, far fewer than state-of-the-art datasets like Magpie. Through evaluations by fine-tuning Llama-3-8B-Base on PiKa and other public datasets, we show that PiKa-SFT outperforms models trained on much larger data. On AlpacaEval 2.0 and Arena-Hard benchmarks, PiKa-SFT fine-tuning even surpasses the official Llama-3-8B-Instruct model trained on over 10 million proprietary examples. We further extend our study by training the Qwen2.5 series (0.5B to 7B) on PiKa-SFT, achieving consistent gains. These findings demonstrate that high-quality alignment can be achieved with significantly less data, offering a scalable path for open-source LLM alignment. Code and data: https://github.com/SJY8460/PiKa.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)の整合の基礎となっている。
しかし、その効果は高品質な命令データに依存する。
ほとんどの既存のアライメントデータセットはプライベートか、コストのかかる人的アノテーションを必要とするため、再現性とスケーラビリティが制限されている。
Reinforcement Learning from AI Feedback (RLAIF)でさえ、データ品質に関する懸念は残る。
さらに、ベースモデルを強い命令追従モデルに微調整するために必要なデータが実際にどれだけあるかは、不明である。
現在のアプローチは、監督された微調整(SFT)段階においても、しばしば300万以上の例に依存しているが、プロプライエタリなモデルに比べてパフォーマンスが劣り、学術的およびリソースに制限されたコミュニティの障壁を形成している。
このギャップに対処するために、専門家レベルのアライメントデータセットの、データ効率の高いファミリであるPiKaを紹介します。
特に、PiKa-SFTデータセットは30万SFTのサンプルしか使用せず、Magpieのような最先端のデータセットよりもはるかに少ない。
Llama-3-8B-BaseをPiKaや他の公開データセット上で微調整することで、PiKa-SFTがより大規模なデータでトレーニングされたモデルより優れていることを示す。
AlpacaEval 2.0とArena-Hardベンチマークでは、PiKa-SFTの微調整は、1000万以上のプロプライエタリなサンプルに基づいてトレーニングされた公式のLlama-3-8B-Instructモデルを超えている。
さらに、PiKa-SFT上でQwen2.5シリーズ(0.5Bから7B)をトレーニングし、一貫したゲインを達成することで、研究をさらに進める。
これらの結果から、高品質なアライメントは、非常に少ないデータで実現可能であることが示され、オープンソースのLLMアライメントのためのスケーラブルなパスを提供する。
コードとデータ:https://github.com/SJY8460/PiKa。
関連論文リスト
- Input-Time Scaling [2.2917707112773598]
現在のLarge Language Models (LLM) は通常、大規模にキュレートされたデータセットでポストトレーニングされる。
本稿では,クエリにリソースを配置することで,従来のスケーリング手法を補完する新しいスケーリングパラダイムであるInput-Time Scalingを提案する。
データ品質の低いデータセットが、パフォーマンスを向上できるのに驚きました。
論文 参考訳(メタデータ) (2025-08-19T09:04:13Z) - OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。
私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文 参考訳(メタデータ) (2025-04-02T17:50:31Z) - Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing [48.07915731998946]
我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。
我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。
以上の結果から,Magpieを微調整したモデルでは,公式のLlama-3-8B-インストラクトと同等に動作することが示唆された。
論文 参考訳(メタデータ) (2024-06-12T17:52:30Z) - OpenChat: Advancing Open-source Language Models with Mixed-Quality Data [29.938434364765534]
混合品質データを用いたオープンソースの言語モデルを進化させる新しいフレームワーク、OpenChatを提案する。
提案するC(onditioned)-RLFTは,異なるデータソースを粗い報酬ラベルとみなし,クラス条件のポリシーを学習する。
C-RLFTで微調整したopenchat-13bは、13bのオープンソース言語モデルの中で最も高い平均性能を達成する。
論文 参考訳(メタデータ) (2023-09-20T11:54:40Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。