論文の概要: OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value
- arxiv url: http://arxiv.org/abs/2512.14051v1
- Date: Tue, 16 Dec 2025 03:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.572361
- Title: OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value
- Title(参考訳): OpenDataArena: トレーニング後のデータセット価値のベンチマークのための公平でオープンなアリーナ
- Authors: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu,
- Abstract要約: OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
- 参考スコア(独自算出の注目度): 74.80873109856563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は、訓練後のデータセットの品質と多様性を前提としている。
しかし、重要な二分法は続く: モデルは厳格にベンチマークされているが、それらに燃料を供給するデータはブラックボックスのままであり、不透明な組成、不確かさ、体系的な評価の欠如によって特徴付けられる。
この不透明さは再現性を妨げ、データ特性とモデル動作の因果関係を曖昧にする。
このギャップを埋めるために、私たちはOpenDataArena(ODA)を紹介します。
織田は4つの柱からなる総合的な生態系を確立している。
i) 多様なモデル(例えば、Llama、Qwen)とドメイン間の公正かつオープンな比較を保証する統一的なトレーニング評価パイプライン。
二 十個の異なる軸に沿ってデータ品質をプロファイルする多次元スコアリングフレームワーク
三 データセットの系譜を視覚化し、成分源を識別する対話型データ系統探索装置
(iv)データ研究を促進するためのトレーニング、評価、スコアのための完全なオープンソースツールキット。
複数のドメインにまたがる120以上のトレーニングデータセットを22のベンチマークで探索し、600以上のトレーニング実行と4000万の処理されたデータポイントによって検証した。
我々の分析は、データ複雑性とタスクパフォーマンスの本質的にのトレードオフを明らかにし、ライントレースを通じて人気のあるベンチマークの冗長性を識別し、データセット間での遺伝的関係をマッピングする。
高品質なデータ評価へのアクセスを民主化するために、すべての結果、ツール、設定をリリースします。
単にリーダーボードを拡張するのではなく、Oda氏は、試行錯誤データキュレーションから、データミキシング法と基礎モデルの戦略的構成に関する厳密な研究の道を開く、データ中心AIの原則科学への移行を構想している。
関連論文リスト
- Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance [29.94723846950853]
我々は、Tulu-3-SFT-MixとSmolTalkという2つの著名なオープントレーニング後のデータセットを総合的に分析した。
構造的および質的な類似点と2つのデータセットの違いを明らかにする統計を導出する。
我々の発見は、より効果的なトレーニング後のデータセットを構築するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-06-06T20:34:06Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。