論文の概要: Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets
- arxiv url: http://arxiv.org/abs/2601.09733v1
- Date: Tue, 30 Dec 2025 17:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.715222
- Title: Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets
- Title(参考訳): データループのクローズ:OpenDataArenaをエンジニアのトレーニングデータセットに使用
- Authors: Xin Gao, Xiaoyang Wang, Yun Zhu, Mengzhang Cai, Conghui He, Lijun Wu,
- Abstract要約: アドホックなキュレーションからOpenDataArena(ODA)を用いたクローズドループデータセットエンジニアリングフレームワークへのパラダイムシフトを提案する。
textbfODA-Math460-kは、AIMEやHMMTなどのベンチマークでステート・オブ・ザ・アーツ(SOTA)結果を達成するために、新しい2段階の難易度対応パイプラインを利用する特殊な数学推論データセットであり、textbfODA-Mixture (100k & 500k) はアンカー・アンド・アンカーで構築された一連のマルチドメイン命令データセットである。
- 参考スコア(独自算出の注目度): 46.480867560675584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The construction of Supervised Fine-Tuning (SFT) datasets is a critical yet under-theorized stage in the post-training of Large Language Models (LLMs), as prevalent practices often rely on heuristic aggregation without a systematic understanding of how individual samples contribute to model performance. In this report, we propose a paradigm shift from ad-hoc curation to a closed-loop dataset engineering framework using OpenDataArena (ODA), which leverages value-anchored rankings and multi-dimensional analysis to transform value benchmarking into feedback signals guiding dataset construction. We instantiate this methodology through two new datasets: \textbf{ODA-Math-460k}, a specialized mathematics reasoning dataset that utilizes a novel two-stage difficulty-aware pipeline to achieve State-of-the-Art (SOTA) results on benchmarks such as AIME and HMMT, and \textbf{ODA-Mixture (100k \& 500k)}, a series of multi-domain instruction datasets built via an ``Anchor-and-Patch'' strategy that outperforms significantly larger open-source baselines. Our empirical results demonstrate that ODA-driven datasets significantly improve both domain-specific reasoning and general utility while achieving superior data efficiency, validating a transition toward data-centric AI where transparent evaluation serves as the primary engine for engineering high-quality training data.
- Abstract(参考訳): スーパーバイザード・ファインチューニング(SFT)データセットの構築は、大規模言語モデル(LLM)の後のトレーニングにおいて、重要で未理論の段階であり、個々のサンプルがモデルのパフォーマンスにどのように貢献するかを体系的に理解することなく、しばしばヒューリスティックな集約に依存している。
本稿では,OpenDataArena(ODA)を用いたアドホックキュレーションからクローズドループデータセットエンジニアリングフレームワークへのパラダイムシフトを提案する。
AIME や HMMT などのベンチマークで State-of-the-Art (SOTA) 結果を達成するために,新しい2段階の困難対応パイプラインを利用する特殊数学推論データセットである \textbf{ODA-Math-460k} と,オープンソースのベースラインを大きく上回る ``Anchor-and-Patch' 戦略によって構築されたマルチドメイン命令データセットである \textbf{ODA-Mixture (100k \&500k)} の2つの新しいデータセットを通じて,この方法論をインスタンス化する。
実験の結果,織田氏主導のデータセットはドメイン固有推論と汎用性の両方を大幅に改善し,優れたデータ効率を実現し,透明な評価が高品質なトレーニングデータの主要エンジンとなるデータ中心型AIへの移行を検証した。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Statistical Comparative Analysis of Semantic Similarities and Model Transferability Across Datasets for Short Answer Grading [3.7723788828505125]
本研究では、確立されたデータセットに基づいて訓練された最先端(SOTA)モデルの、未探索のテキストデータセットへの転送可能性について検討する。
この研究の主な目的は、SOTAモデルの潜在的な適用性と適応性に関する総合的な洞察を得ることである。
論文 参考訳(メタデータ) (2025-08-19T05:45:02Z) - Curvature Enhanced Data Augmentation for Regression [4.910937238451485]
回帰タスクに対する曲率強化マニフォールドサンプリング(CEMS)手法を提案する。
CEMSは、ディストリビューションとアウト・オブ・ディストリビューションの両方のシナリオで優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-07T16:18:37Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。