論文の概要: LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests
- arxiv url: http://arxiv.org/abs/2507.21447v1
- Date: Tue, 29 Jul 2025 02:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.555432
- Title: LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests
- Title(参考訳): LLM4V:ディレクティブベース並列プログラミングモデルコンパイラテストの生成と評価のためのカットエッジLCMの評価
- Authors: Zachariah Sollenberger, Rahul Patel, Saieda Ali Zada, Sunita Chandrasekaran,
- Abstract要約: 本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
- 参考スコア(独自算出の注目度): 7.6818904666624395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The usage of Large Language Models (LLMs) for software and test development has continued to increase since LLMs were first introduced, but only recently have the expectations of LLMs become more realistic. Verifying the correctness of code generated by LLMs is key to improving their usefulness, but there have been no comprehensive and fully autonomous solutions developed yet. Hallucinations are a major concern when LLMs are applied blindly to problems without taking the time and effort to verify their outputs, and an inability to explain the logical reasoning of LLMs leads to issues with trusting their results. To address these challenges while also aiming to effectively apply LLMs, this paper proposes a dual-LLM system (i.e. a generative LLM and a discriminative LLM) and experiments with the usage of LLMs for the generation of a large volume of compiler tests. We experimented with a number of LLMs possessing varying parameter counts and presented results using ten carefully-chosen metrics that we describe in detail in our narrative. Through our findings, it is evident that LLMs possess the promising potential to generate quality compiler tests and verify them automatically.
- Abstract(参考訳): ソフトウェアとテスト開発におけるLLM(Large Language Models)の利用は、LLMが最初に導入されて以来、増え続けているが、LLMの期待がより現実的なものになってきたのはつい最近である。
LLMが生成するコードの正しさを検証することは、それらの有用性を改善する鍵であるが、まだ包括的な完全自律型ソリューションが開発されていない。
幻覚は、LCMがアウトプットの検証に時間と労力を要さずに、問題に対して盲目的に適用される場合の大きな懸念であり、LCMの論理的推論を説明できないことが、結果の信頼性に問題をもたらす。
これらの課題に対処しつつ、LLMを効果的に適用することを目的とした二重LLMシステム(ジェネレーティブLLMと識別LDM)と、LLMを用いた大量のコンパイラテストの生成実験を提案する。
パラメータ数が異なるLLMを多数試行し,10個の綿密な測定値を用いて実験を行った。
この結果から,LLMには品質の高いコンパイラテストを生成し,自動検証する有望な可能性があることが明らかとなった。
関連論文リスト
- Lightweight Latent Verifiers for Efficient Meta-Generation Strategies [0.5892638927736115]
検証は、ベース大言語モデル(LLM)によって生成された出力の正しさを評価する補助モデルである。
本研究では,LLMの隠れ状態から精度の高い正当性信号を確実に抽出する,新しい軽量検証手法LiLaVeを提案する。
LiLaVeの重要な利点は、従来のLCMベースの検証器が必要とする計算予算のごく一部でしか動作できないことである。
論文 参考訳(メタデータ) (2025-04-23T14:33:20Z) - Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends [30.774685501251817]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。
コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文 参考訳(メタデータ) (2023-11-17T07:55:16Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。