論文の概要: MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection
- arxiv url: http://arxiv.org/abs/2605.30288v1
- Date: Thu, 28 May 2026 17:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.639204
- Title: MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection
- Title(参考訳): MIRA: ソース・アウェアデータ選択のための中級トレーニング用ルーブリックアンカリング
- Authors: Haowen Wang, Yaxin Du, Jian Yang, Jiajun Wu, Shukai Liu, Yuxuan Zhang, Pingjie Wang, Siheng Chen, Tuney Zheng, Ming Zhou, Xianglong Liu,
- Abstract要約: 我々は,自作ルーブリック発見に基づくソース認識フィルタリングフレームワークであるMIRAを提案する。
21のソースと5つのソースグループを持つコード指向のミッドトレーニングでは、MIRAは9つのコードベンチマークで選択ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 60.789146300767534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.
- Abstract(参考訳): 中期訓練は, 大規模キュレートミキシングを用いて最終訓練前の能力強化を図り, 近代LLM開発において重要な段階となった。
データは事前学習スタイルの目的の下でほぼ事前学習スケールで最適化されるが、下流の能力に向けてキュレートされ、異なるフォーマットとトレーニングロールを持つ異種ソースから引き出される。
その結果、効果的な選択にはスケーラビリティとソース適応的セマンティックな基準の両方が必要である。
既存のモデルベースのメソッドのスケールは良好だが、暗黙的な品質信号のみを提供する。
意味的選択法はより強い判断を与えるが、通常は固定されたルーリックや標準化されたデータ形式を仮定する。
このミスマッチに対処するために,自作ルーブリック発見に基づくソース認識フィルタリングフレームワークであるMIRAを提案する。
MIRAはまず、各ソースグループに対して評価すべきことを最初に発見し、次にこれらの判断をスケーラブルな学生スコアラーに蒸留して全コーパスフィルタリングする。
21のソースと5つのソースグループによるコード指向のミッドトレーニングでは、MIRAは9つのコードベンチマークで選択ベースラインを上回り、トークンの半分しか使用せずに全コーパスの実行にマッチする。
関連論文リスト
- OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training [14.608696839111134]
トレーニングから比選択を分離するOptiMerを提案する。
Gemma 3 27Bの言語(日本語、中国語)およびドメイン(Math, Code)における実験
論文 参考訳(メタデータ) (2026-03-30T18:00:02Z) - When Data is the Algorithm: A Systematic Study and Curation of Preference Optimization Datasets [29.94723846950853]
本稿では,オープンソースDPOコーパスの包括的データ中心分析について紹介する。
Magpieフレームワークを利用して、各サンプルにタスクカテゴリ、入力品質、好みの報酬をアノテートします。
これにより、データセット間の好みの質をスケーラブルできめ細かい検査が可能になり、報酬マージンの構造的および質的な相違が明らかになる。
論文 参考訳(メタデータ) (2025-11-14T06:12:16Z) - Composable Cross-prompt Essay Scoring by Merging Models [7.5702468122067685]
クロスプロンプト自動エッセイは、典型的にはすべてのソースプロンプトで共同でモデルを訓練する。
本稿では、データセットの代わりに個別に訓練されたソースモデルのパラメータを選択的にマージする、ソースフリー適応手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T06:28:21Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。