Fugu-MT 論文翻訳(概要): Automatically Detecting Numerical Instability in Machine Learning Applications via Soft Assertions

論文の概要: Automatically Detecting Numerical Instability in Machine Learning Applications via Soft Assertions

arxiv url: http://arxiv.org/abs/2504.15507v2
Date: Wed, 23 Apr 2025 07:46:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:52.761865
Title: Automatically Detecting Numerical Instability in Machine Learning Applications via Soft Assertions
Title（参考訳）: ソフトアサーションによる機械学習アプリケーションにおける数値不安定の自動検出
Authors: Shaila Sharmin, Anwar Hossain Zahid, Subhankar Bhattacharjee, Chiamaka Igwilo, Miryung Kim, Wei Le,
Abstract要約: 数値的なバグは、システムのクラッシュ、不正な出力、無駄なコンピューティングリソースにつながる可能性がある。数値不安定が生じる場所の安全性・エラー条件を符号化するために,ソフトアサーション(SA)という新しいアイデアを導入する。
参考スコア（独自算出の注目度）: 7.893728124841138
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) applications have become an integral part of our lives. ML applications extensively use floating-point computation and involve very large/small numbers; thus, maintaining the numerical stability of such complex computations remains an important challenge. Numerical bugs can lead to system crashes, incorrect output, and wasted computing resources. In this paper, we introduce a novel idea, namely soft assertions (SA), to encode safety/error conditions for the places where numerical instability can occur. A soft assertion is an ML model automatically trained using the dataset obtained during unit testing of unstable functions. Given the values at the unstable function in an ML application, a soft assertion reports how to change these values in order to trigger the instability. We then use the output of soft assertions as signals to effectively mutate inputs to trigger numerical instability in ML applications. In the evaluation, we used the GRIST benchmark, a total of 79 programs, as well as 15 real-world ML applications from GitHub. We compared our tool with 5 state-of-the-art (SOTA) fuzzers. We found all the GRIST bugs and outperformed the baselines. We found 13 numerical bugs in real-world code, one of which had already been confirmed by the GitHub developers. While the baselines mostly found the bugs that report NaN and INF, our tool \tool found numerical bugs with incorrect output. We showed one case where the Tumor Detection Model, trained on Brain MRI images, should have predicted "tumor", but instead, it incorrectly predicted "no tumor" due to the numerical bugs. Our replication package is located at https://figshare.com/s/6528d21ccd28bea94c32.
Abstract（参考訳）: 機械学習(ML)アプリケーションは、私たちの生活の不可欠な部分になっています。 MLアプリケーションは浮動小数点演算を多用し、非常に大きな/小数の計算を必要とするため、そのような複雑な計算の数値安定性を維持することは依然として重要な課題である。数値的なバグは、システムのクラッシュ、誤った出力、無駄なコンピューティングリソースにつながる可能性がある。本稿では,数値不安定な場所での安全性・エラー条件を符号化する,ソフトアサーション(SA)という新しいアイデアを紹介する。ソフトアサーション(英: soft assertion)は、不安定な関数の単体テストで得られたデータセットを使用して自動的にトレーニングされるMLモデルである。 MLアプリケーションの不安定な関数の値を考えると、ソフトアサーションは不安定性を引き起こすためにこれらの値を変更する方法を報告します。次に、ソフトアサーションの出力を信号として、入力を効果的に変更し、MLアプリケーションの数値不安定を誘発する。評価では、GRISTベンチマーク、合計79のプログラム、GitHubの15の現実世界のMLアプリケーションを使用しました。ツールを5つの最先端ファジィ(SOTA)ファジィと比較した。 GRISTのすべてのバグを発見し、ベースラインを上回りました。実世界のコードには13の数値的なバグがあったが、そのうちの1つはGitHub開発者によってすでに確認されている。ベースラインはほとんどがNaNとINFを報告しているバグを見つけましたが、ツール \toolは間違った出力で数値的なバグを見つけました。脳MRI画像に基づく腫瘍検出モデルでは「腫瘍」を予測すべきであったが,数値的なバグにより「腫瘍なし」を誤った予測が可能であった。私たちのレプリケーションパッケージはhttps://figshare.com/s/6528d21ccd28bea94c32にあります。

関連論文リスト

Is Your Automated Software Engineer Trustworthy? [0.850206009406913]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクでますます使われています。 LLMはすべての問題に応答し、入力があいまいであったり、出力が間違っていたとしても、すべてのケースに対してパッチを生成する。これは、幻覚的なコード変更や、あいまいな問題レポートに基づいたレスポンスといった、信頼性の低い振る舞いにつながります。我々は、LLMベースのソフトウェアエージェントが入力が未定義の場合に動作しないかどうかを評価するベンチマークであるBouncerBenchを紹介する。
論文参考訳（メタデータ） (2025-06-21T20:56:20Z)
Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning [54.970571745690634]
本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文参考訳（メタデータ） (2025-06-11T08:23:53Z)
Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering [0.0]
機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。我々の検証は、解決可能なタスクのベースラインパス@1を保存するが、返却された回答のエラー率を65%から2%に下げる。このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
論文参考訳（メタデータ） (2025-05-16T18:19:38Z)
MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools [54.63478102768333]
十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
論文参考訳（メタデータ） (2025-04-28T18:06:38Z)
Subgraph-Oriented Testing for Deep Learning Libraries [9.78188667672054]
我々は,異なるハードウェアプラットフォーム上でディープラーニング(DL)ライブラリをテストするためのSORT(Subgraph-Oriented Realistic Testing)を提案する。 SORTは、テスト対象として、しばしばモデルグラフのサブグラフとして表現される、人気のあるAPIインタラクションパターンを採用している。 SORTは100%有効な入力生成率を実現し、既存のメソッドよりも精度の高いバグを検出し、シングルAPIテストで欠落したインタラクション関連のバグを明らかにする。
論文参考訳（メタデータ） (2024-12-09T12:10:48Z)
Fast Fixes and Faulty Drivers: An Empirical Analysis of Regression Bug Fixing Times in the Linux Kernel [3.1959458747110054]
本稿では、回帰バグの修正に要する時間を考慮して、カーネルの回帰バグ追跡に焦点を当てる。調査したデータセットは、Linuxカーネルのレグレッションを追跡するregzbot自動化フレームワークに基づいている。
論文参考訳（メタデータ） (2024-11-04T13:53:29Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。 textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文参考訳（メタデータ） (2023-12-08T20:28:08Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文参考訳（メタデータ） (2023-10-20T06:49:32Z)
Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。 Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文参考訳（メタデータ） (2023-09-25T15:42:18Z)
Fuzzing with Quantitative and Adaptive Hot-Bytes Identification [6.442499249981947]
アメリカのファジィ・ロック(fuzzy lop)はファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)ツールだ。以下の原則に基づいて設計したツールという手法を提案する。実世界の10のプログラムとLAVA-Mデータセットによる評価結果から,ツールキーブが分岐カバレッジを持続的に増加させ,他のファザよりも多くのバグを発見できた。
論文参考訳（メタデータ） (2023-07-05T13:41:35Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Vamsa: Automated Provenance Tracking in Data Science Scripts [17.53546311589593]
本稿では,MLプロビデンス追跡問題を紹介する。このような情報をPythonのコンテキストで取得する上での課題について論じる。ユーザコードの変更を必要とせずに,Pythonスクリプトから証明を抽出するモジュールシステムであるVamsaを提案する。
論文参考訳（メタデータ） (2020-01-07T02:39:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。