論文の概要: Does AI for science need another ImageNet Or totally different
benchmarks? A case study of machine learning force fields
- arxiv url: http://arxiv.org/abs/2308.05999v1
- Date: Fri, 11 Aug 2023 08:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:46:21.672355
- Title: Does AI for science need another ImageNet Or totally different
benchmarks? A case study of machine learning force fields
- Title(参考訳): AI for Scienceには別のイメージネットが必要か?
機械学習力場の事例研究
- Authors: Yatao Li, Wanling Gao, Lei Wang, Lixin Sun, Zun Wang, Jianfeng Zhan
- Abstract要約: AI for Science(AI4S)は、機械学習手法を用いて科学計算タスクの精度とスピードを高めることを目的としている。
従来のAIベンチマーク手法は、トレーニング、テスト、将来の現実世界のクエリが独立して同一に分散されていると仮定するため、AI4Sが引き起こすユニークな課題に適応するのに苦労する。
本稿では,機械学習力場(MLFF)をケーススタディとして,科学のためのAIを効果的にベンチマークするための新しいアプローチの必要性について検討する。
- 参考スコア(独自算出の注目度): 5.622820801789953
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI for science (AI4S) is an emerging research field that aims to enhance the
accuracy and speed of scientific computing tasks using machine learning
methods. Traditional AI benchmarking methods struggle to adapt to the unique
challenges posed by AI4S because they assume data in training, testing, and
future real-world queries are independent and identically distributed, while
AI4S workloads anticipate out-of-distribution problem instances. This paper
investigates the need for a novel approach to effectively benchmark AI for
science, using the machine learning force field (MLFF) as a case study. MLFF is
a method to accelerate molecular dynamics (MD) simulation with low
computational cost and high accuracy. We identify various missed opportunities
in scientifically meaningful benchmarking and propose solutions to evaluate
MLFF models, specifically in the aspects of sample efficiency, time domain
sensitivity, and cross-dataset generalization capabilities. By setting up the
problem instantiation similar to the actual scientific applications, more
meaningful performance metrics from the benchmark can be achieved. This suite
of metrics has demonstrated a better ability to assess a model's performance in
real-world scientific applications, in contrast to traditional AI benchmarking
methodologies. This work is a component of the SAIBench project, an AI4S
benchmarking suite. The project homepage is
https://www.computercouncil.org/SAIBench.
- Abstract(参考訳): AI for Science(AI4S)は、機械学習手法を用いて科学計算タスクの精度とスピードを高めることを目的とした、新たな研究分野である。
従来のAIベンチマーク手法は、トレーニング、テスト、将来の現実世界のクエリが独立して同一に分散されていると仮定する一方で、AI4Sワークロードはアウト・オブ・ディストリビューションの問題インスタンスを予測しているため、AI4Sが引き起こすユニークな課題に適応するのに苦労する。
本稿では,機械学習力場(MLFF)を事例として,科学のためのAIを効果的にベンチマークするための新しいアプローチの必要性を検討する。
mlffは分子動力学(md)シミュレーションを低計算コストで高精度で高速化する手法である。
科学的に意味のあるベンチマークにおける様々な機会の欠如を特定し、特に標本効率、時間領域感度、データセット間の一般化機能の観点からMLFFモデルを評価するためのソリューションを提案する。
実際の科学アプリケーションと同様の問題のインスタンス化を設定することで、ベンチマークによるより有意義なパフォーマンスメトリクスが実現できます。
このメトリクススイートは、従来のAIベンチマーク手法とは対照的に、現実世界の科学応用におけるモデルのパフォーマンスを評価する能力が向上したことを示している。
この作業は、AI4SベンチマークスイートであるSAIBenchプロジェクトのコンポーネントである。
プロジェクトのホームページはhttps://www.computercouncil.org/saibench。
関連論文リスト
- Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence [3.4049215220521933]
我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。
このフレームワークは、複数の試みにわたるモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入している。
付随するデータセットであるDIA-Benchには、さまざまなフォーマットで表示される可変パラメータを備えたチャレンジテンプレートのコレクションが含まれている。
論文 参考訳(メタデータ) (2024-10-20T20:07:36Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - Automatic AI Model Selection for Wireless Systems: Online Learning via Digital Twinning [50.332027356848094]
AIベースのアプリケーションは、スケジューリングや電力制御などの機能を実行するために、インテリジェントコントローラにデプロイされる。
コンテキストとAIモデルのパラメータのマッピングは、ゼロショット方式で理想的に行われる。
本稿では,AMSマッピングのオンライン最適化のための一般的な手法を紹介する。
論文 参考訳(メタデータ) (2024-06-22T11:17:50Z) - SAIBench: A Structural Interpretation of AI for Science Through
Benchmarks [2.6159098238462817]
本稿では,構造解釈として知られる新しいベンチマーク手法を提案する。
それは2つの重要な要件に対処する: 問題空間における信頼された操作範囲を特定し、エラーを計算コンポーネントにトレースする。
構造解釈の実用性と有効性は、3つの異なるAI4Sワークロードへの適用を通じて説明される。
論文 参考訳(メタデータ) (2023-11-29T18:17:35Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - TRUST XAI: Model-Agnostic Explanations for AI With a Case Study on IIoT
Security [0.0]
我々は,トランスパラシー・アポン・統計理論(XAI)という普遍的XAIモデルを提案する。
TRUST XAIが, 平均成功率98%の新しいランダムサンプルについて, どのように説明するかを示す。
最後に、TRUSTがユーザに対してどのように説明されるかを示す。
論文 参考訳(メタデータ) (2022-05-02T21:44:27Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z) - AIPerf: Automated machine learning as an AI-HPC benchmark [17.57686674304368]
自動機械学習(AutoML)を利用したエンドツーエンドベンチマークスイートを提案する。
アルゴリズムを並列かつ柔軟な方法で実装し、多様なシステムにおける効率性と最適化の可能性を保証する。
フレキシブルなワークロードと単一のメトリックによって、私たちのベンチマークはAI-HPCのスケールとランク付けが容易になります。
論文 参考訳(メタデータ) (2020-08-17T08:06:43Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。