Fugu-MT 論文翻訳(概要): Enhancing Deployment-Time Predictive Model Robustness for Code Analysis and Optimization

論文の概要: Enhancing Deployment-Time Predictive Model Robustness for Code Analysis and Optimization

arxiv url: http://arxiv.org/abs/2501.00298v1
Date: Tue, 31 Dec 2024 06:17:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:31.537792
Title: Enhancing Deployment-Time Predictive Model Robustness for Code Analysis and Optimization
Title（参考訳）: コード分析と最適化のためのデプロイ時間予測モデルロバストネスの強化
Authors: Huanting Wang, Patrick Lenihan, Zheng Wang,
Abstract要約: 本稿では,予測モデルの堅牢性と性能を高めるオープンソースライブラリであるPromを紹介する。 Promは、統計的アセスメントを使用して、誤った予測をしがちなテストサンプルを識別する。評価の結果,Promは平均96%(最大100%)の誤予測を識別できることがわかった。
参考スコア（独自算出の注目度）: 4.374023944113174
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Supervised machine learning techniques have shown promising results in code analysis and optimization problems. However, a learning-based solution can be brittle because minor changes in hardware or application workloads -- such as facing a new CPU architecture or code pattern -- may jeopardize decision accuracy, ultimately undermining model robustness. We introduce Prom, an open-source library to enhance the robustness and performance of predictive models against such changes during deployment. Prom achieves this by using statistical assessments to identify test samples prone to mispredictions and using feedback on these samples to improve a deployed model. We showcase Prom by applying it to 13 representative machine learning models across 5 code analysis and optimization tasks. Our extensive evaluation demonstrates that Prom can successfully identify an average of 96% (up to 100%) of mispredictions. By relabeling up to 5% of the Prom-identified samples through incremental learning, Prom can help a deployed model achieve a performance comparable to that attained during its model training phase.
Abstract（参考訳）: 教師付き機械学習技術は、コード解析と最適化の問題において有望な結果を示している。しかし、新しいCPUアーキテクチャやコードパターンに直面するような、ハードウェアやアプリケーションのワークロードの小さな変更が、決定の正確性を損なう可能性があるため、学習ベースのソリューションは不安定になる可能性がある。デプロイ中のこのような変更に対する予測モデルの堅牢性とパフォーマンスを高めるための,オープンソースのライブラリであるPromを紹介します。 Promは、統計的アセスメントを使用して、誤った予測をしがちなテストサンプルを特定し、これらのサンプルに対するフィードバックを使って、デプロイされたモデルを改善する。 5つのコード分析と最適化タスクにわたる13の代表的な機械学習モデルに適用することで、Promを紹介します。我々の広範囲な評価は、Promが平均96%(最大100%)の誤予測を識別できることを示している。 Promは、インクリメンタルラーニングを通じて、Prom識別されたサンプルの最大5%をレパートブルすることで、デプロイされたモデルがそのモデルのトレーニングフェーズで達成したものと同等のパフォーマンスを達成するのに役立つ。

関連論文リスト

StepFun-Prover Preview: Let's Think and Verify Step by Step [14.896796588073725]
本稿では,ツール統合推論による形式定理証明のための大規模言語モデルであるStepFun-Prover Previewを提案する。提案手法は,実時間環境フィードバックに基づく証明を反復的に精錬することにより,人間的な問題解決戦略をエミュレートすることを可能にする。 miniF2F-testベンチマークでは、StepFun-Proverがパス@1成功率70.0%$を達成した。
論文参考訳（メタデータ） (2025-07-27T09:38:32Z)
Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。 xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文参考訳（メタデータ） (2025-03-18T23:15:02Z)
Enhancing Sample Selection by Cutting Mislabeled Easy Examples [62.13094877228772]
トレーニングプロセスの初期段階において,モデルによって正しく予測された誤ラベル例は,特にモデル性能に有害であることを示す。モデルの後続のトレーニング状態を利用して,早期に同定された自信あるサブセットを再選択するアーリーカットを提案する。
論文参考訳（メタデータ） (2025-02-12T09:12:45Z)
Dividable Configuration Performance Learning [4.949726352498762]
本稿では,DaLと呼ばれる構成性能を予測するためのモデルに依存しない,スパース性ロバストなフレームワークを提案する。 DaLは、"diide-and-learn"を使ってモデルを構築する、分割可能な学習の新しいパラダイムに基づいている。
論文参考訳（メタデータ） (2024-09-11T21:23:23Z)
Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,繰り返しのトレーニングにおいて安定な機械学習モデルのシーケンスを見つける手法を提案する。最適モデルの復元が保証される混合整数最適化の定式化を開発する。本手法は, 予測力の小さい, 制御可能な犠牲を伴い, 厳密に訓練されたモデルよりも強い安定性を示す。
論文参考訳（メタデータ） (2024-03-28T22:45:38Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文参考訳（メタデータ） (2023-12-25T21:25:55Z)
A positive feedback method based on F-measure value for Salient Object Detection [1.9249287163937976]
本稿では,SODに対するF値に基づく正のフィードバック手法を提案する。提案手法は,画像を検出して既存のモデルに入力し,それぞれの予測マップを取得する。 5つの公開データセットに対する実験結果から,提案手法の正のフィードバックは,5つの評価指標において最新の12の手法よりも優れていた。
論文参考訳（メタデータ） (2023-04-28T04:05:13Z)
Statistical Hardware Design With Multi-model Active Learning [1.7596501992526474]
本稿では,効率的なハードウェア設計の課題を解決するために,モデルに基づく能動的学習手法を提案する。提案手法は,設計空間探索と性能予測を同時に行うのに十分な精度のハードウェアモデルを提供する。
論文参考訳（メタデータ） (2023-03-14T16:37:38Z)
MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文参考訳（メタデータ） (2021-10-18T17:55:11Z)
Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文参考訳（メタデータ） (2021-02-10T15:23:20Z)
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文参考訳（メタデータ） (2020-12-08T18:03:21Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。