論文の概要: Assessing Large Language Models for Stabilizing Numerical Expressions in Scientific Software
- arxiv url: http://arxiv.org/abs/2604.04854v3
- Date: Wed, 08 Apr 2026 18:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.870641
- Title: Assessing Large Language Models for Stabilizing Numerical Expressions in Scientific Software
- Title(参考訳): 科学ソフトウェアにおける数値表現の安定化のための大規模言語モデルの評価
- Authors: Tien Nguyen, Kirshanthan Sundararajah, Muhammad Ali Gulzar,
- Abstract要約: 本稿では,2つの数値安定化タスクによる高精度数値計算における大規模言語モデルの推論について検討する。
一般的な数値ベンチマークを用いて,約2,470個の数値構造上のLSMを6つ評価する。
LLMは、数値的に不安定な計算を検出し、安定化するための最先端の従来の手法として同様に有効である。
- 参考スコア(独自算出の注目度): 6.885865913527471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific software relies on high-precision computation, yet finite floating-point representations can introduce precision errors that propagate in safety-critical domains. Despite the growing use of large language models (LLMs) in scientific applications, their reliability in handling floating-point numerical stability has not been systematically evaluated. This paper evaluates LLMs' reasoning on high-precision numerical computation through two numerical stabilization tasks: (1) detecting instability in numerical expressions by generating error-inducing inputs (detection), and (2) rewriting expressions to improve numerical stability (stabilization). Using popular numerical benchmarks, we assess six LLMs on nearly 2,470 numerical structures, including nested conditionals, high-precision literals, and multi-variable arithmetic. Our results show that LLMs are equally effective as state-of-the-art traditional approaches in detecting and stabilizing numerically unstable computations. More notably, LLMs outperform baseline methods precisely where the latter fail: in 17.4% (431) of expressions where the baseline does not improve accuracy, LLMs successfully stabilize 422 (97.9%) of them, and achieve greater stability than the baseline across 65.4% (1,615) of all expressions. However, LLMs struggle with control flow and high-precision literals, consistently removing such structures rather than reasoning about their numerical implications, whereas they perform substantially better on purely symbolic expressions. Together, these findings suggest that LLMs are effective at stabilizing expressions that classical techniques cannot, yet struggle when exact numerical magnitudes and control flow semantics must be precisely reasoned about, as such concrete patterns are rarely encountered during training.
- Abstract(参考訳): 科学ソフトウェアは高精度な計算に頼っているが、有限浮動小数点表現は安全クリティカルな領域で伝播する精度誤差を導入することができる。
科学応用における大規模言語モデル(LLM)の利用が増加しているにもかかわらず、浮動小数点数値安定性を扱う際の信頼性は体系的に評価されていない。
本稿では,LLMが2つの数値安定化タスクを通して高精度な数値計算を行う理由について,(1)誤り発生入力(検出)を発生させて数値表現の不安定性を検出すること,(2)数値安定性(安定化)を改善するために書き直し式について検討する。
一般的な数値ベンチマークを用いて,ネスト条件,高精度リテラル,多変量演算を含む,約2,470個の数値構造上の6つのLSMを評価する。
以上の結果から,LLMは数値不安定な数値計算の検出と安定化において,最先端の従来の手法と同等に有効であることが示された。
17.4% (431) の表現では、ベースラインは精度を向上しないが、LLMは422 (97.9%) を安定させ、全ての表現の65.4% (1,615) にわたってベースラインよりも高い安定性を達成する。
しかし、LSMは制御フローと高精度リテラルに苦慮し、それらの数値的含意を推論するよりも、そのような構造を一貫して取り除き、純粋に象徴的な表現で大幅に改善する。
これらの結果から, LLMは古典的手法では不可能な表現の安定化に有効であるが, 正確な数値や制御フローのセマンティクスを正確に推論する必要がある場合, 訓練中にそのような具体的なパターンがほとんど見つからないことが示唆された。
関連論文リスト
- When Stability Fails: Hidden Failure Modes Of LLMS in Data-Constrained Scientific Decision-Making [0.0]
大規模言語モデル(LLM)は、データ制約された科学的作業フローにおける意思決定支援ツールとして、ますます使われてきている。
LLM意思決定の4次元を明示的に分離する制御された行動評価フレームワークを提案する。
統計的基盤真理から分岐しながら, LLM がほぼ完全なラン・ツー・ラン安定性を示すことを示す。
論文 参考訳(メタデータ) (2026-03-16T19:17:09Z) - Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals [18.612081365101464]
我々は,標準ラベル付き結果と,モデルが補助的推論連鎖を判断することで得られるペアワイズ比較信号とを組み合わせたフレームワークを開発する。
シミュレーション全体では, モデル出力ノイズの増加に伴い, 評価精度が大幅に向上し, ゲインが増大する。
GPQA Diamond、AIME 2025、GSM8Kの実験では、より正確な性能推定とより信頼性の高いモデルランキングが示されている。
論文 参考訳(メタデータ) (2026-02-03T03:40:01Z) - Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming [8.52533297070733]
EVALOOOPは自己整合性の観点から堅牢性を評価するアセスメントフレームワークである。
MBPP Plusベンチマークで96の人気のある大言語モデル(LLM)を評価した。
EVALOOOPは10ループでパス@1の精度を2.65%-47.62%低下させる。
論文 参考訳(メタデータ) (2025-05-18T01:02:33Z) - The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs [17.497629884237647]
BugLensは、バグ検出のための静的解析精度を大幅に向上させる、ポストリファインメントフレームワークである。
LLMは有望なコード理解能力を示すが、プログラム分析への直接の応用は信頼できない。
LLMは、セキュリティへの影響を評価し、ソースコードから制約を検証するため、構造化された推論ステップを通じてLLMをガイドする。
論文 参考訳(メタデータ) (2025-04-16T02:17:06Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。