Fugu-MT 論文翻訳(概要): Can LLMs Solve Science or Just Write Code? Evaluating Quantum Solver Generation

論文の概要: Can LLMs Solve Science or Just Write Code? Evaluating Quantum Solver Generation

arxiv url: http://arxiv.org/abs/2605.07525v1
Date: Fri, 08 May 2026 09:55:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.979453
Title: Can LLMs Solve Science or Just Write Code? Evaluating Quantum Solver Generation
Title（参考訳）: LLMは科学を解けるのか、それとも単にコードを書くのか?量子ソルバ生成の評価
Authors: Luciano Baresi, Domenico Bianculli, Maryse Ernzer, Livia Lestingi, Fabrizio Pastore, Seung Yeob Shin,
Abstract要約: 大規模言語モデル(LLM)は、コード生成において強力な能力を示し、自動量子ソルバ開発での利用を動機付けている。本研究は,LLMの科学的問題に対する解法生成能力を評価するための反復的手法であるQ-SAGEを紹介する。
参考スコア（独自算出の注目度）: 4.121927985291393
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) show strong capabilities in code generation, motivating their use in automated quantum solver development. However, in quantum computing, successful execution of generated code is not sufficient: correctness depends on numerically accurate results, which are sensitive to non-trivial mappings, hybrid quantum-classical workflows, and algorithm-specific approximations. This work introduces Q-SAGE, an iterative methodology to evaluate LLMs' capability in generating quantum solvers for scientific problems. The methodology adopts an iterative approach by executing the script generated by the LLM, comparing the result with the result of a classical solver, and refining the script until the two results match within a tolerance threshold. We empirically evaluated the methodology with five families of scientific problems of different complexities and five LLMs, both open source and proprietary. The results show that iterative refinement substantially improves success rates, but introduces a significant computational overhead. Moreover, as model capability increases, failure modes shift from execution errors to numerical inaccuracies, highlighting the current limitations of LLM-based quantum software.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード生成において強力な能力を示し、自動量子ソルバ開発での利用を動機付けている。正確性は数値的に正確な結果に依存し、非自明なマッピング、ハイブリッド量子古典ワークフロー、アルゴリズム固有の近似に敏感である。この研究は、科学的問題に対する量子ソルバの生成におけるLLMの能力を評価する反復的手法であるQ-SAGEを紹介する。 LLMによって生成されたスクリプトを実行し、古典的なソルバの結果と比較し、2つの結果が許容しきい値内で一致するまでスクリプトを精査することで、反復的なアプローチを採用する。我々は、異なる複雑さの科学的問題5つのファミリーと、オープンソースとプロプライエタリの両方の5つのLLMを用いて、方法論を実証的に評価した。その結果,反復的改善は成功率を大幅に向上させるが,計算オーバーヘッドは著しく増大することがわかった。さらに、モデル能力が向上するにつれて、障害モードは実行エラーから数値的不正確へとシフトし、LLMベースの量子ソフトウェアの現在の制限を強調している。

関連論文リスト

Beyond Rules: LLM-Powered Linting for Quantum Programs [4.968531828144473]
本稿ではLintQ-LLM+CoTとLintQ-LLM+RAGを紹介する。 CoT (Chain-of-Thought) をプロンプトし、RAG (Retrieval-Augmented Generation) システムを通じて特別に設計された LLM は、モデルの推論をキュレートされた知識ベースで根拠付ける。 LLMに基づくアプローチは、RAGの有無にかかわらず、量子プログラミング問題の精度(精度)と完全性(リコール)においてLintQよりも優れていることを示す。
論文参考訳（メタデータ） (2026-05-05T16:31:14Z)
QuanBench: Benchmarking Quantum Code Generation with Large Language Models [7.807551490308163]
大規模言語モデル(LLM)は、一般的なコード生成において優れた性能を示している。本稿では,量子コード生成におけるLLMの評価ベンチマークであるQuanBenchを提案する。
論文参考訳（メタデータ） (2025-10-19T10:08:36Z)
SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文参考訳（メタデータ） (2025-09-12T02:53:57Z)
Quantum Knowledge Distillation for Large Language Models [10.023534560183919]
大規模言語モデルのための量子知識蒸留モデル(QD-LLM)を提案する。古典的シミュレーションでは、QD-LLMは複数のテキスト分類タスクにおいていくつかの主流蒸留法より優れている。得られた回路をQuafuプラットフォームを介してBaihua超伝導量子プロセッサ上に展開し,実用性を評価する。
論文参考訳（メタデータ） (2025-05-19T14:56:24Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Precision or Peril: Evaluating Code Quality from Quantized Large Language Models [0.5249805590164902]
量子化は、大規模言語モデルのメモリオーバーヘッドを軽減する手段として登場した。本研究の目的は、様々なメトリクスを用いて、より小さなLCMのコード生成能力を評価することである。
論文参考訳（メタデータ） (2024-11-16T01:31:29Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。