Fugu-MT 論文翻訳(概要): LLM-Based Program Generation for Triggering Numerical Inconsistencies Across Compilers

論文の概要: LLM-Based Program Generation for Triggering Numerical Inconsistencies Across Compilers

arxiv url: http://arxiv.org/abs/2509.00256v1
Date: Fri, 29 Aug 2025 21:49:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-04 15:17:03.147101
Title: LLM-Based Program Generation for Triggering Numerical Inconsistencies Across Compilers
Title（参考訳）: コンパイラ間の数値不整合をトリガするLCMプログラム生成
Authors: Yutong Wang, Cindy Rubio-González,
Abstract要約: コンパイラ間の浮動小数点不整合は数値ソフトウェアの信頼性を損なう可能性がある。 LLM4FPは,大規模言語モデルを用いて浮動小数点プログラムを生成する最初のフレームワークである。 LLM誘導プログラム生成は数値的不整合の検出を改善する。
参考スコア（独自算出の注目度）: 9.736443665992478
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Floating-point inconsistencies across compilers can undermine the reliability of numerical software. We present LLM4FP, the first framework that uses Large Language Models (LLMs) to generate floating-point programs specifically designed to trigger such inconsistencies. LLM4FP combines Grammar-Based Generation and Feedback-Based Mutation to produce diverse and valid programs. We evaluate LLM4FP across multiple compilers and optimization levels, measuring inconsistency rate, time cost, and program diversity. LLM4FP detects over twice as many inconsistencies compared to the state-of-the-art tool, Varity. Notably, most of the inconsistencies involve real-valued differences, rather than extreme values like NaN or infinities. LLM4FP also uncovers inconsistencies across a wider range of optimization levels, and finds the most mismatches between host and device compilers. These results show that LLM-guided program generation improves the detection of numerical inconsistencies.
Abstract（参考訳）: コンパイラ間の浮動小数点不整合は数値ソフトウェアの信頼性を損なう可能性がある。 LLM4FPは,Large Language Models (LLMs) を用いて,そのような不整合を発生させるように設計された浮動小数点プログラムを生成する最初のフレームワークである。 LLM4FP はGrammar-Based Generation と Feedback-Based Mutation を組み合わせて、多種多様な有効なプログラムを生成する。複数のコンパイラと最適化レベルにまたがってLLM4FPを評価し、不整合率、時間コスト、プログラムの多様性を測定した。 LLM4FPは最先端ツールであるVarityの2倍以上の不整合を検出する。特に、ほとんどの矛盾は、NaNや無限大のような極端な値ではなく、実際の値の違いを伴う。 LLM4FPはまた、幅広い最適化レベルの不整合を明らかにし、ホストとデバイスコンパイラの最もミスマッチを見つける。これらの結果から,LLM誘導型プログラム生成は数値的不整合の検出を改善することが示唆された。

関連論文リスト

Narrowing the Complexity Gap in the Evaluation of Large Language Models [7.915455233884959]
現実のコードの複雑さに関して、LLM(Large Language Models)を評価することが不可欠です。我々は,任意のプログラムベンチマークに実世界の複雑さを追加する自動手法であるGeneBenchを提案する。
論文参考訳（メタデータ） (2026-02-21T18:39:06Z)
Cost-Aware Model Selection for Text Classification: Multi-Objective Trade-offs Between Fine-Tuned Encoders and LLM Prompting in Production [0.0]
大規模言語モデル(LLM)は、オープンエンド推論や生成言語タスクにおいて強力な機能を示している。固定ラベル空間を用いた構造化テキスト分類問題に対して、モデル選択は予測性能のみによって駆動されることが多い。 BERTファミリーの細調整エンコーダを用いたモデルでは、競争力があり、しばしば優れた分類性能が得られることを示す。
論文参考訳（メタデータ） (2026-02-06T03:54:28Z)
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。 2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。 19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文参考訳（メタデータ） (2024-02-17T00:09:32Z)
Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文参考訳（メタデータ） (2024-01-11T14:27:43Z)
Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T14:23:26Z)
Isolating Compiler Bugs by Generating Effective Witness Programs with Large Language Models [10.660543763757518]
既存のコンパイラのバグ分離アプローチは、問題をテストプログラムの突然変異問題に変換する。コンパイラのバグ分離のための効率的なテストプログラムを生成するために,LLM4CBIという新しい手法を提案する。 GCCとLLVMの120以上の実際のバグに対する最先端のアプローチと比較し,LLM4CBIの利点を実証した。
論文参考訳（メタデータ） (2023-07-02T15:20:54Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。