論文の概要: DataRaceBench V1.4.1 and DataRaceBench-ML V0.1: Benchmark Suites for
Data Race Detection
- arxiv url: http://arxiv.org/abs/2308.08473v1
- Date: Wed, 16 Aug 2023 16:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 13:48:57.909033
- Title: DataRaceBench V1.4.1 and DataRaceBench-ML V0.1: Benchmark Suites for
Data Race Detection
- Title(参考訳): DataRaceBench V1.4.1とDataRaceBench-ML V0.1: データ競合検出のためのベンチマークスイート
- Authors: Le Chen, Wenhao Wu, Stephen F. Siegel, Pei-Hung Lin, Chunhua Liao
- Abstract要約: データレースは、プログラムの正確性に悪影響を及ぼすため、マルチスレッド並列アプリケーションに重大な脅威をもたらす。
オープンソースのベンチマークスイートDataRaceBenchは、これらのデータ競合検出ツールを、システマティックで測定可能な方法で評価するために作られている。
本稿では,DataRaceBench-ML (DRB-ML) という名前の派生データセットを紹介する。
- 参考スコア(独自算出の注目度): 23.240375422302666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data races pose a significant threat in multi-threaded parallel applications
due to their negative impact on program correctness. DataRaceBench, an
open-source benchmark suite, is specifically crafted to assess these data race
detection tools in a systematic and measurable manner. Machine learning
techniques have recently demonstrated considerable potential in
high-performance computing (HPC) program analysis and optimization. However,
these techniques require specialized data formats for training and refinement.
This paper presents the latest update to DataRaceBench, incorporating new data
race contributions from Wu et al. \cite{wu2023model}, and introduces a derived
dataset named DataRaceBench-ML (DRB-ML) \cite{drbml}. DRB-ML aligns with the
emerging trend of machine learning and large language models. Originating from
DataRaceBench, this dataset includes detailed labels that denote the presence
of a data race and provides comprehensive details of associated variables, such
as variable names, line numbers, and the operation (read/write). Unique to
DRB-ML, we have also integrated a series of tailored prompt-response pairs
specifically designed for LLM fine-tuning.
- Abstract(参考訳): データレースは、プログラムの正確性に悪影響を及ぼすため、マルチスレッド並列アプリケーションに重大な脅威をもたらす。
オープンソースのベンチマークスイートであるdataracebenchは、これらのデータ競合検出ツールを体系的で測定可能な方法で評価するために特別に開発されている。
機械学習技術は近年,ハイパフォーマンスコンピューティング (HPC) プログラムの解析と最適化において大きな可能性を示している。
しかし、これらの技術は訓練と洗練のために特別なデータフォーマットを必要とする。
本稿では、Wuらによる新しいデータレースコントリビューションを取り入れた、DataRaceBenchの最新アップデートについて述べる。
また、DataRaceBench-ML (DRB-ML) \cite{drbml}という派生データセットを導入している。
DRB-MLは、機械学習と大規模言語モデルの新たなトレンドと一致している。
dataracebenchから派生したこのデータセットは、データ競合の存在を示す詳細なラベルを含み、変数名、行番号、操作(読み取り/書き込み)といった関連する変数の包括的詳細を提供する。
また, DRB-MLと異なり, LLMファインチューニング用に設計された一連のプロンプト応答ペアを統合した。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z) - DataAssist: A Machine Learning Approach to Data Cleaning and Preparation [0.0]
DataAssistは、MLインフォームドメソッドを使用してデータセットの品質を向上させる自動データ準備およびクリーニングプラットフォームである。
我々のツールは、経済、ビジネス、予測アプリケーションなど、さまざまな分野に適用でき、データの浄化と準備に費やした時間の50%以上を節約できる。
論文 参考訳(メタデータ) (2023-07-14T01:50:53Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Integrating Transformer and Autoencoder Techniques with Spectral Graph
Algorithms for the Prediction of Scarcely Labeled Molecular Data [2.8360662552057323]
この課題に対処するために、Merriman-Bence-Osher(MBO)テクニックを取り入れたグラフベースの3つのモデルを導入する。
具体的には、MBO方式のグラフベースの修正は、自家製のトランスフォーマーやオートエンコーダなどの最先端技術と統合されている。
提案したモデルは,5つのベンチマークデータセットを用いて検証する。
論文 参考訳(メタデータ) (2022-11-12T22:45:32Z) - A domain-specific language for describing machine learning dataset [3.9576015470370893]
このDSLは、データセットの構造、データの出所、社会的関心事の観点から記述します。
Visual Studio Codeプラグインとして実装され、オープンソースライセンスで公開されている。
論文 参考訳(メタデータ) (2022-07-05T14:00:01Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。