論文の概要: Making Machine Learning Datasets and Models FAIR for HPC: A Methodology
and Case Study
- arxiv url: http://arxiv.org/abs/2211.02092v1
- Date: Thu, 3 Nov 2022 18:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:29:28.064738
- Title: Making Machine Learning Datasets and Models FAIR for HPC: A Methodology
and Case Study
- Title(参考訳): HPCのための機械学習データセットとモデルFAIRの作成:方法論と事例研究
- Authors: Pei-Hung Lin, Chunhua Liao, Winson Chen, Tristan Vanderbruggen, Murali
Emani, Hailu Xu
- Abstract要約: FAIR Guiding Principlesは、デジタルコンテンツの発見可能性、アクセシビリティ、相互運用性、再利用性を改善することを目的としている。
これらの原則は、ハイパフォーマンスコンピューティングのための機械学習ベースのプログラム分析と最適化の分野において、まだ広く採用されていない。
我々は、既存のFAIRness評価と改善技術を調査した後、HPCデータセットと機械学習モデルFAIRを作成する手法を設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The FAIR Guiding Principles aim to improve the findability, accessibility,
interoperability, and reusability of digital content by making them both human
and machine actionable. However, these principles have not yet been broadly
adopted in the domain of machine learning-based program analyses and
optimizations for High-Performance Computing (HPC). In this paper, we design a
methodology to make HPC datasets and machine learning models FAIR after
investigating existing FAIRness assessment and improvement techniques. Our
methodology includes a comprehensive, quantitative assessment for elected data,
followed by concrete, actionable suggestions to improve FAIRness with respect
to common issues related to persistent identifiers, rich metadata descriptions,
license and provenance information. Moreover, we select a representative
training dataset to evaluate our methodology. The experiment shows the
methodology can effectively improve the dataset and model's FAIRness from an
initial score of 19.1% to the final score of 83.0%.
- Abstract(参考訳): FAIR Guiding Principlesは、デジタルコンテンツの発見可能性、アクセシビリティ、相互運用性、再利用性を改善することを目的としている。
しかし、これらの原則は機械学習に基づくプログラム分析とハイパフォーマンスコンピューティング(HPC)の最適化の分野ではまだ広く採用されていない。
本稿では,既存のFAIRnessアセスメントと改善技術を調査した後,HPCデータセットと機械学習モデルFAIRを作成する手法を設計する。
提案手法は, 厳密な識別子, 豊富なメタデータ記述, ライセンス, 証明情報に関連する共通問題に関して, 具体的かつ実用的なFAIRネス向上のための総合的, 定量的な評価を含む。
さらに,提案手法を評価するために,代表訓練データセットを選択する。
この実験は、この方法論がデータセットとモデルのFAIRnessを19.1%から83.0%まで効果的に改善できることを示している。
関連論文リスト
- User-centric evaluation of explainability of AI with and for humans: a comprehensive empirical study [5.775094401949666]
この研究はHuman-Centered Artificial Intelligence (HCAI)にある。
一般的に使用されるeXplainable Artificial Intelligence (XAI)アルゴリズムのユーザ中心評価の結果に焦点を当てている。
論文 参考訳(メタデータ) (2024-10-21T12:32:39Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - An explainable machine learning-based approach for analyzing customers'
online data to identify the importance of product attributes [0.6437284704257459]
本稿では,製品開発におけるデザインの包括的意味を抽出するゲーム理論機械学習(ML)手法を提案する。
提案手法をKaggleの実際のラップトップのデータセットに適用し,結果に基づいて設計上の意味を導出する。
論文 参考訳(メタデータ) (2024-02-03T20:50:48Z) - GPT in Data Science: A Practical Exploration of Model Selection [0.7646713951724013]
この研究は、AI意思決定プロセスの理解を深めることにコミットしています。
我々の取り組みは、より透明で理解しやすいAIシステムの構築に向けられている。
論文 参考訳(メタデータ) (2023-11-20T03:42:24Z) - Latent Properties of Lifelong Learning Systems [59.50307752165016]
本稿では,生涯学習アルゴリズムの潜伏特性を推定するために,アルゴリズムに依存しないサロゲート・モデリング手法を提案する。
合成データを用いた実験により,これらの特性を推定するためのアプローチを検証する。
論文 参考訳(メタデータ) (2022-07-28T20:58:13Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。