論文の概要: A Primer in Post-Training Reasoning Data: What We Know About How It Works
- arxiv url: http://arxiv.org/abs/2606.02113v1
- Date: Mon, 01 Jun 2026 11:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.896844
- Title: A Primer in Post-Training Reasoning Data: What We Know About How It Works
- Title(参考訳): トレーニング後の推論データのプライマー:その仕組みについて知っておくべきこと
- Authors: Yaoming Li, Guangxiang Zhao, Qilong Shi, Lin Sun, Xiangzheng Zhang, Tong Yang,
- Abstract要約: 本稿では,150以上の主要な公開研究と学習後推論データに関するシステムレポートを合成した最初のプライマーである。
データオブジェクトが存在するか、何が有用か、どのように構築されているか、どのようにスケールするか、という4つの質問に関するフィールドを整理します。
- 参考スコア(独自算出の注目度): 10.122424165480757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training has become a primary driver of recent progress in large reasoning models, and reasoning data are often the key variable determining whether this stage succeeds. Work on post-training reasoning data has grown rapidly, yet this literature remains scattered across dataset papers, reinforcement-learning recipes, reward-model studies, benchmarks, and frontier system reports. This paper is the first primer to synthesize over 150 key public studies and system reports on post-training reasoning data. We organize the field around four questions: what data objects exist, what makes them useful, how they are constructed, and how they scale. Together, this organization provides an attribution framework for future reasoning-data releases and post-training recipes.
- Abstract(参考訳): ポストトレーニングは、大規模な推論モデルにおける最近の進歩の原動力となり、推論データは、しばしばこの段階が成功するかどうかを決定する重要な変数である。
トレーニング後の推論データの研究は急速に進んでいるが、この文献はデータセット論文、強化学習レシピ、報酬モデル研究、ベンチマーク、フロンティアシステムレポートに分散している。
本稿では,150以上の主要な公開研究と学習後推論データに関するシステムレポートを合成した最初のプライマーである。
データオブジェクトが存在するか、何が有用か、どのように構築されているか、どのようにスケールするか、という4つの質問に関するフィールドを整理します。
この組織は、将来の推論データリリースとポストトレーニングのレシピに貢献するフレームワークを提供している。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - RAEE: A Training-Free Retrieval-Augmented Early Exiting Framework for Efficient Inference [20.250550771195726]
本稿では、効率的な推論のためのトレーニング不要な検索拡張早期実行フレームワークであるRAEEを提案する。
実験の結果,提案したRAEEは推論を著しく加速できることが示された。
RAEEは8つの分類タスクで最先端のゼロショットのパフォーマンスも達成している。
論文 参考訳(メタデータ) (2024-05-24T04:01:24Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Understanding the Dataset Practitioners Behind Large Language Model Development [5.48392160519422]
私たちは、Googleというテクノロジー企業における“データセットの実践者”の役割を定義します。
我々は,これらの実践者の横断的なインタビューを行う。
データ品質が最優先事項であるにも関わらず、データ品質とそれを評価する方法に関するコンセンサスはほとんどありません。
論文 参考訳(メタデータ) (2024-02-21T23:50:37Z) - A Comprehensive Survey on Pretrained Foundation Models: A History from
BERT to ChatGPT [0.0]
事前訓練された基礎モデル(PFM)は、異なるデータモダリティを持つ様々な下流タスクの基礎と見なされている。
この研究は、テキスト、画像、グラフ、その他のデータモダリティにおける最近の研究の進歩、課題、および PFM の機会を包括的にレビューする。
論文 参考訳(メタデータ) (2023-02-18T20:51:09Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Data-to-Value: An Evaluation-First Methodology for Natural Language
Projects [3.9378507882929554]
Data to Value"(D2V)は、ビッグデータテキスト分析プロジェクトのための新しい方法論である。
ビッグデータテキスト分析プロジェクトチームとトピック間の切断を避けるため、質問の詳細なカタログでガイドされている。
論文 参考訳(メタデータ) (2022-01-19T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。