論文の概要: Data Race Detection Using Large Language Models
- arxiv url: http://arxiv.org/abs/2308.07505v2
- Date: Tue, 3 Oct 2023 06:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 07:45:06.154357
- Title: Data Race Detection Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたデータ競合検出
- Authors: Le Chen, Xianzhong Ding, Murali Emani, Tristan Vanderbruggen, Pei-hung
Lin, Chuanhua Liao
- Abstract要約: 大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
- 参考スコア(独自算出の注目度): 1.0013600887991827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are demonstrating significant promise as an
alternate strategy to facilitate analyses and optimizations of high-performance
computing programs, circumventing the need for resource-intensive manual tool
creation. In this paper, we explore a novel LLM-based data race detection
approach combining prompting engineering and fine-tuning techniques. We create
a dedicated dataset named DRB-ML, which is derived from DataRaceBench, with
fine-grain labels showing the presence of data race pairs and their associated
variables, line numbers, and read/write information. DRB-ML is then used to
evaluate representative LLMs and fine-tune open-source ones. Our experiment
shows that LLMs can be a viable approach to data race detection. However, they
still cannot compete with traditional data race detection tools when we need
detailed information about variable pairs causing data races.
- Abstract(参考訳): 大規模言語モデル(llm)は、リソース集約的な手動ツール作成の必要性を回避し、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略として、大きな期待を示している。
本稿では,技術と微調整を融合したllmに基づく新しいデータ競合検出手法について検討する。
我々はDataRaceBenchから派生したDRB-MLという専用のデータセットを作成し、データレースペアとその関連する変数、行番号、読み書き情報を示す微粒なラベルを付ける。
DRB-MLは、代表的なLCMとファインチューンオープンソースの評価に使用される。
実験の結果,LLMはデータ競合検出に有効な手法であることがわかった。
しかし、変数ペアに関する詳細な情報が必要な場合、従来のデータ競合検出ツールと競合することはできません。
関連論文リスト
- Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - SEED: Domain-Specific Data Curation With Large Language Models [23.292874517414774]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEDは、それらのジェネリックなソリューションを著しく上回るドメイン固有のソリューションを生成する。
SEDは最先端または同等の少数ショットのパフォーマンスを達成し、LLM呼び出しの数を著しく削減する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - Fabricator: An Open Source Toolkit for Generating Labeled Training Data
with Teacher LLMs [6.847114270274019]
下流のNLPモデルのトレーニングに使用できるラベル付きデータを生成する方法を示す。
NLP生成のためのオープンソースのPythonツールキットであるFabricatorを紹介する。
論文 参考訳(メタデータ) (2023-09-18T08:45:47Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - DataRaceBench V1.4.1 and DataRaceBench-ML V0.1: Benchmark Suites for
Data Race Detection [23.240375422302666]
データレースは、プログラムの正確性に悪影響を及ぼすため、マルチスレッド並列アプリケーションに重大な脅威をもたらす。
オープンソースのベンチマークスイートDataRaceBenchは、これらのデータ競合検出ツールを、システマティックで測定可能な方法で評価するために作られている。
本稿では,DataRaceBench-ML (DRB-ML) という名前の派生データセットを紹介する。
論文 参考訳(メタデータ) (2023-08-16T16:23:13Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。