論文の概要: SAIBench: A Structural Interpretation of AI for Science Through
Benchmarks
- arxiv url: http://arxiv.org/abs/2311.17869v1
- Date: Wed, 29 Nov 2023 18:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:22:48.951259
- Title: SAIBench: A Structural Interpretation of AI for Science Through
Benchmarks
- Title(参考訳): SAIBench: ベンチマークによる科学のためのAIの構造解釈
- Authors: Yatao Li, Jianfeng Zhan
- Abstract要約: 本稿では,構造解釈として知られる新しいベンチマーク手法を提案する。
それは2つの重要な要件に対処する: 問題空間における信頼された操作範囲を特定し、エラーを計算コンポーネントにトレースする。
構造解釈の実用性と有効性は、3つの異なるAI4Sワークロードへの適用を通じて説明される。
- 参考スコア(独自算出の注目度): 2.6159098238462817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence for Science (AI4S) is an emerging research field that
utilizes machine learning advancements to tackle complex scientific
computational issues, aiming to enhance computational efficiency and accuracy.
However, the data-driven nature of AI4S lacks the correctness or accuracy
assurances of conventional scientific computing, posing challenges when
deploying AI4S models in real-world applications. To mitigate these, more
comprehensive benchmarking procedures are needed to better understand AI4S
models. This paper introduces a novel benchmarking approach, known as
structural interpretation, which addresses two key requirements: identifying
the trusted operating range in the problem space and tracing errors back to
their computational components. This method partitions both the problem and
metric spaces, facilitating a structural exploration of these spaces. The
practical utility and effectiveness of structural interpretation are
illustrated through its application to three distinct AI4S workloads:
machine-learning force fields (MLFF), jet tagging, and precipitation
nowcasting. The benchmarks effectively model the trusted operating range, trace
errors, and reveal novel perspectives for refining the model, training process,
and data sampling strategy. This work is part of the SAIBench project, an AI4S
benchmarking suite.
- Abstract(参考訳): AI4S(人工知能・フォー・サイエンス、Artificial Intelligence for Science)は、機械学習の進歩を利用して複雑な科学計算問題に取り組む研究分野である。
しかし、AI4Sのデータ駆動の性質は、従来の科学計算の正確さや精度の保証に欠けており、現実のアプリケーションにAI4Sモデルをデプロイする際の課題を提起している。
これらを緩和するためには、AI4Sモデルをより深く理解するために、より包括的なベンチマーク手順が必要である。
本稿では,問題空間における信頼動作範囲の同定と,その計算成分へのエラーのトレースという,2つの重要な要件に対処する,構造解釈と呼ばれる新しいベンチマーク手法を提案する。
この方法は問題空間と距離空間の両方を分割し、これらの空間の構造的な探索を促進する。
構造解釈の実用性と有効性は、機械学習力場(MLFF)、ジェットタグ付け、降水流の3つの異なるAI4Sワークロードに適用することで説明される。
ベンチマークは、信頼できる運用範囲、トレースエラーを効果的にモデル化し、モデル、トレーニングプロセス、データサンプリング戦略を洗練するための新しい視点を明らかにする。
この作業は、AI4SベンチマークスイートであるSAIBenchプロジェクトの一部である。
関連論文リスト
- ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - Architectural Flaw Detection in Civil Engineering Using GPT-4 [0.8463972278020965]
本稿では,LLM GPT4ターボビジョンモデルによる設計段階におけるアーキテクチャ欠陥の検出の可能性について検討する。
本研究は,精度,リコール,F1スコアなどの指標を用いて,モデルの性能を評価する。
この調査結果は、AIが設計精度を大幅に改善し、コストのかかるリビジョンを削減し、持続可能なプラクティスをサポートする方法を強調している。
論文 参考訳(メタデータ) (2024-10-26T01:10:04Z) - Adaptation of XAI to Auto-tuning for Numerical Libraries [0.0]
説明可能なAI(XAI)技術は、AIモデル開発の合理化と、ユーザへのAI出力の説明の負担軽減を目的として、注目を集めている。
本研究は,2つの異なるプロセスに統合されたAIモデルのXAIに着目し,数値計算を行う。
論文 参考訳(メタデータ) (2024-05-12T09:00:56Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - A Comprehensive Performance Study of Large Language Models on Novel AI
Accelerators [2.88634411143577]
大規模言語モデル(LLM)は、いくつかの課題に対処するための有望なアプローチと考えられている。
専門のAIアクセラレータハードウェアシステムは、最近、AIアプリケーションの高速化に利用できるようになった。
論文 参考訳(メタデータ) (2023-10-06T21:55:57Z) - Does AI for science need another ImageNet Or totally different
benchmarks? A case study of machine learning force fields [5.622820801789953]
AI for Science(AI4S)は、機械学習手法を用いて科学計算タスクの精度とスピードを高めることを目的としている。
従来のAIベンチマーク手法は、トレーニング、テスト、将来の現実世界のクエリが独立して同一に分散されていると仮定するため、AI4Sが引き起こすユニークな課題に適応するのに苦労する。
本稿では,機械学習力場(MLFF)をケーススタディとして,科学のためのAIを効果的にベンチマークするための新しいアプローチの必要性について検討する。
論文 参考訳(メタデータ) (2023-08-11T08:06:58Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Can GPT-4 Perform Neural Architecture Search? [56.98363718371614]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。
提案手法である textbfGPT-4 textbfEnhanced textbfNeural archtextbfItecttextbfUre textbfSearch (GENIUS)
我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。
論文 参考訳(メタデータ) (2023-04-21T14:06:44Z) - INTERACTION: A Generative XAI Framework for Natural Language Inference
Explanations [58.062003028768636]
現在のXAIアプローチは、ひとつの説明を提供することにのみ焦点をあてています。
本稿では、生成型XAIフレームワーク、InterACTION(explaIn aNd predicT thEn queRy with contextuAl CondiTional variational autO-eNcoder)を提案する。
提案するフレームワークは,説明とラベル予測の2つのステップ,および(ステップ2)異種証拠生成の2つのステップで説明を行う。
論文 参考訳(メタデータ) (2022-09-02T13:52:39Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。