論文の概要: BenchMake: Turn any scientific data set into a reproducible benchmark
- arxiv url: http://arxiv.org/abs/2506.23419v1
- Date: Sun, 29 Jun 2025 22:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.86648
- Title: BenchMake: Turn any scientific data set into a reproducible benchmark
- Title(参考訳): BenchMake:あらゆる科学的データセットを再現可能なベンチマークに変える
- Authors: Amanda S Barnard,
- Abstract要約: 計算科学におけるベンチマークセットの相対的な希薄さは、新しいイノベーションを評価するのを困難にしている。
新しいツールは、オープンに利用可能な科学データセットの数を、コミュニティがアクセス可能なベンチマークに変えるために開発されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmark data sets are a cornerstone of machine learning development and applications, ensuring new methods are robust, reliable and competitive. The relative rarity of benchmark sets in computational science, due to the uniqueness of the problems and the pace of change in the associated domains, makes evaluating new innovations difficult for computational scientists. In this paper a new tool is developed and tested to potentially turn any of the increasing numbers of scientific data sets made openly available into a benchmark accessible to the community. BenchMake uses non-negative matrix factorisation to deterministically identify and isolate challenging edge cases on the convex hull (the smallest convex set that contains all existing data instances) and partitions a required fraction of matched data instances into a testing set that maximises divergence and statistical significance, across tabular, graph, image, signal and textual modalities. BenchMake splits are compared to establish splits and random splits using ten publicly available benchmark sets from different areas of science, with different sizes, shapes, distributions.
- Abstract(参考訳): ベンチマークデータセットは、機械学習の開発とアプリケーションの基礎であり、新しいメソッドが堅牢で信頼性があり、競争力があることを保証する。
計算科学におけるベンチマークセットの相対的な希薄さは、問題の特徴と関連する領域の変化のペースのため、計算科学者にとって新しいイノベーションを評価するのが困難である。
本稿では,オープンに利用可能な科学データセットの数を,コミュニティがアクセス可能なベンチマークに変換するために,新たなツールを開発し,テストする。
BenchMakeは、非負の行列因数分解を使用して、凸船体(既存のすべてのデータインスタンスを含む最小の凸集合)上の挑戦的なエッジケースを決定的に識別し、分離し、マッチしたデータインスタンスの要求された断片を、表、グラフ、画像、信号、テキストのモダリティを越えて、ばらつきと統計的重要性を最大化するテストセットに分割する。
BenchMakeのスプリットは、異なるサイズ、形状、分布を持つ科学のさまざまな領域から利用可能な10のベンチマークセットを使用して、分割とランダム分割を確立するために比較される。
関連論文リスト
- On the Interconnections of Calibration, Quantification, and Classifier Accuracy Prediction under Dataset Shift [58.91436551466064]
本稿では,データセットシフト条件下でのキャリブレーションと定量化の3つの基本問題間の相互接続について検討する。
これらのタスクのいずれか1つに対するオラクルへのアクセスは、他の2つのタスクの解決を可能にすることを示す。
本稿では,他の分野から借用した高度に確立された手法の直接適応に基づく各問題に対する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:42:55Z) - ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities [30.123976500620834]
従来の固定テストセットは、ファンデーションモデルのオープンな機能を評価するのに不足しています。
ONEBenchは、個々の評価データセットを統一し、拡張し続けるサンプルプールに統合する新しいテストパラダイムである。
ONEBenchは、テストセットにまたがってサンプルを集約することにより、オリジナルのテストセットでカバーされたもの以上の多様な機能の評価を可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:37:14Z) - Benchmarking Video Frame Interpolation [11.918489436283748]
提案手法は,提案するWebサイトを利用して,一貫したエラーメトリクスを確立するベンチマークである。
また、合成データを利用して線形性の仮定に忠実なテストセットを提案し、コヒーレントな方法で計算効率を評価する。
論文 参考訳(メタデータ) (2024-03-25T19:13:12Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Heterogeneous Datasets for Federated Survival Analysis Simulation [6.489759672413373]
本研究では、既存の非フェデレーションデータセットから再現可能な方法で開始することで、現実的な異種データセットを構築する新しい手法を提案する。
具体的には、ディリクレ分布に基づく2つの新しいデータセット分割アルゴリズムを提供し、各データサンプルを慎重に選択したクライアントに割り当てる。
提案手法の実装は,フェデレートされた環境をシミュレートしてサバイバル分析を行うことを推奨し,広く普及している。
論文 参考訳(メタデータ) (2023-01-28T11:37:07Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Statistical Comparisons of Classifiers by Generalized Stochastic
Dominance [0.0]
いくつかの基準に関して、分類器を複数のデータセットで比較する方法については、まだ合意が得られていない。
本稿では, 意思決定理論の最近の展開を取り入れた, 鮮明な議論に新たな視点を加える。
我々のフレームワークは、支配という一般化された概念によって分類器をランク付けし、それは煩雑なものを強力に回避し、しばしば自己矛盾的であり、集約に依存していることを示している。
論文 参考訳(メタデータ) (2022-09-05T09:28:15Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Learn then Test: Calibrating Predictive Algorithms to Achieve Risk
Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。
私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。
我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文 参考訳(メタデータ) (2021-10-03T17:42:03Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。