論文の概要: An MLCommons Scientific Benchmarks Ontology
- arxiv url: http://arxiv.org/abs/2511.05614v1
- Date: Thu, 06 Nov 2025 17:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.497913
- Title: An MLCommons Scientific Benchmarks Ontology
- Title(参考訳): MLCommonsの科学ベンチマークオントロジー
- Authors: Ben Hawks, Gregor von Laszewski, Matthew D. Sinclair, Marco Colombo, Shivaram Venkataraman, Rutwik Jain, Yiwei Jiang, Nhan Tran, Geoffrey Fox,
- Abstract要約: 本稿では,統一的,コミュニティ主導の取り組みを通じて開発された科学ベンチマークのオントロジーを紹介する。
この取り組みは、異なるベンチマークとフレームワークの大規模なセットを単一の分類に集約する。
新しいベンチマークはMLCommons Science Working Groupが調整したオープンな提出を通じて追加することができる。
- 参考スコア(独自算出の注目度): 2.665757190742151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific machine learning research spans diverse domains and data modalities, yet existing benchmark efforts remain siloed and lack standardization. This makes novel and transformative applications of machine learning to critical scientific use-cases more fragmented and less clear in pathways to impact. This paper introduces an ontology for scientific benchmarking developed through a unified, community-driven effort that extends the MLCommons ecosystem to cover physics, chemistry, materials science, biology, climate science, and more. Building on prior initiatives such as XAI-BENCH, FastML Science Benchmarks, PDEBench, and the SciMLBench framework, our effort consolidates a large set of disparate benchmarks and frameworks into a single taxonomy of scientific, application, and system-level benchmarks. New benchmarks can be added through an open submission workflow coordinated by the MLCommons Science Working Group and evaluated against a six-category rating rubric that promotes and identifies high-quality benchmarks, enabling stakeholders to select benchmarks that meet their specific needs. The architecture is extensible, supporting future scientific and AI/ML motifs, and we discuss methods for identifying emerging computing patterns for unique scientific workloads. The MLCommons Science Benchmarks Ontology provides a standardized, scalable foundation for reproducible, cross-domain benchmarking in scientific machine learning. A companion webpage for this work has also been developed as the effort evolves: https://mlcommons-science.github.io/benchmark/
- Abstract(参考訳): 科学機械学習の研究はさまざまな領域とデータモダリティにまたがっているが、既存のベンチマークの取り組みはサイロ化され、標準化が欠如している。
これにより、機械学習の科学的ユースケースに対する斬新で変革的な応用が、影響する経路においてより断片化され、より明確になる。
本稿では,科学,化学,材料科学,生物学,気候科学などの分野をカバーするため,MLCommonsエコシステムを拡張した,統一的コミュニティ主導による科学ベンチマークのオントロジーを紹介する。
XAI-BENCH、FastML Science Benchmarks、PDEBench、SciMLBenchフレームワークといった以前のイニシアティブに基づいて、当社の取り組みは、さまざまなベンチマークとフレームワークを科学的、アプリケーション、システムレベルのベンチマークの単一の分類体系に統合しました。
新しいベンチマークは、MLCommons Science Working Groupがコーディネートしたオープンな提出ワークフローを通じて追加でき、高品質なベンチマークを促進し、識別する6カテゴリの格付けルーブリックに対して評価され、ステークホルダが特定のニーズを満たすベンチマークを選択することができる。
アーキテクチャは拡張可能であり、将来の科学的およびAI/MLモチーフをサポートします。
MLCommons Science Benchmarks Ontologyは、科学的機械学習における再現可能なクロスドメインベンチマークのための標準化されたスケーラブルな基盤を提供する。
この作業の共用Webページも,開発が進むにつれて開発されている。 https://mlcommons-science.github.io/benchmark/
関連論文リスト
- A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.82973609312178]
HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。
コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。
HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-05-07T22:50:23Z) - Science Hierarchography: Hierarchical Organization of Science Literature [37.75616980493253]
我々は、科学文献を高品質な階層構造に整理する目的であるSCIENCE HIERARCHOGRAPHYを動機付けている。
我々は、効率的な埋め込みベースのクラスタリングとLLMベースのプロンプトを組み合わせたハイブリッドアプローチを開発した。
その結果,本手法は解釈可能性を改善し,科学的文献を探索するための代替経路を提供することがわかった。
論文 参考訳(メタデータ) (2025-04-18T17:59:29Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - LAB-Bench: Measuring Capabilities of Language Models for Biology Research [1.6312096924271486]
言語エージェント生物学ベンチマーク(LAB-Bench)を紹介する。
これは、AIシステムを評価するための2,400以上の複数の選択質問のデータセットである。
また,本ベンチマークに対して,複数のフロンティア言語モデルの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。
論文 参考訳(メタデータ) (2024-07-14T23:52:25Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。