Fugu-MT 論文翻訳(概要): QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

論文の概要: QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

arxiv url: http://arxiv.org/abs/2604.08570v1
Date: Wed, 25 Mar 2026 20:51:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-19 19:09:11.43642
Title: QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
Title（参考訳）: QuanBench+: LLMベースの量子コード生成のための統一型マルチフレームベンチマーク
Authors: Ali Slim, Haydar Hamieh, Jawad Kotaich, Yehya Ghosn, Mahdi Chehimi, Ammar Mohanna, Hasan Abed Al Kader Hammoud, Bernard Ghanem,
Abstract要約: Qiskit、PennyLane、Cirqにまたがる統一ベンチマークであるQuanBench+を紹介します。我々は,機能テストの実行可能なモデルの評価を行い,Pass@1およびPass@5を報告する。フレームワーク全体で、最強のワンショットスコアはキズキットで59.5%、サークルで54.8%、ペニーレーンで42.9%に達した。
参考スコア（独自算出の注目度）: 39.32132630606808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are increasingly used for code generation, yet quantum code generation is still evaluated mostly within single frameworks, making it difficult to separate quantum reasoning from framework familiarity. We introduce QuanBench+, a unified benchmark spanning Qiskit, PennyLane, and Cirq, with 42 aligned tasks covering quantum algorithms, gate decomposition, and state preparation. We evaluate models with executable functional tests, report Pass@1 and Pass@5, and use KL-divergence-based acceptance for probabilistic outputs. We additionally study Pass@1 after feedback-based repair, where a model may revise code after a runtime error or wrong answer. Across frameworks, the strongest one-shot scores reach 59.5% in Qiskit, 54.8% in Cirq, and 42.9% in PennyLane; with feedback-based repair, the best scores rise to 83.3%, 76.2%, and 66.7%, respectively. These results show clear progress, but also that reliable multi-framework quantum code generation remains unsolved and still depends strongly on framework-specific knowledge.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード生成にますます使われているが、量子コード生成は、ほとんどの場合、単一のフレームワーク内で評価されているため、量子推論とフレームワークの親しみやすさを区別することは困難である。 Qiskit、PennyLane、Cirqにまたがる統一ベンチマークであるQuanBench+を紹介します。我々は,機能テストの実行可能なモデルの評価を行い,Pass@1およびPass@5を報告する。また、フィードバックベースの修正の後、Pass@1を調査します。フレームワーク全体で、最強のワンショットスコアはキシュキットで59.5%、サーカスで54.8%、ペニーレーンで42.9%に達し、フィードバックベースの修復により、それぞれ83.3%、76.2%、66.7%となっている。これらの結果は明らかに進歩しているが、信頼性の高いマルチフレーム量子コード生成は未解決のままであり、フレームワーク固有の知識に強く依存している。

関連論文リスト

Quantum-Safe Code Auditing: LLM-Assisted Static Analysis and Quantum-Aware Risk Scoring for Post-Quantum Cryptography Migration [0.0]
量子セーフコード(Quantum-Safe Code)は、量子を意識した静的解析フレームワークである。量子加重プリミティブの15のクラスと変分ブーンシゾルダー(VQE)モデルを使用している。 602のラベル付きインスタンスのサンプルでは、71.98%の精度、100%のリコール、そしてF1スコア83.71%を達成した。
論文参考訳（メタデータ） (2026-04-01T07:10:17Z)
Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models [60.418191092851636]
OmanicはオープンドメインのマルチホップQAリソースであり、推論プロセスを分析するための構造アノテーションとして分解されたサブクエストと中間回答を提供する。 10,296個の機械によるトレーニング例(Omanic Synth)と967個の専門家による注釈付き評価例(OmanicBench)を含む。
論文参考訳（メタデータ） (2026-03-17T15:23:37Z)
QuanBench: Benchmarking Quantum Code Generation with Large Language Models [7.807551490308163]
大規模言語モデル(LLM)は、一般的なコード生成において優れた性能を示している。本稿では,量子コード生成におけるLLMの評価ベンチマークであるQuanBenchを提案する。
論文参考訳（メタデータ） (2025-10-19T10:08:36Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
QHackBench: Benchmarking Large Language Models for Quantum Code Generation Using PennyLane Hackathon Challenges [4.097173414006477]
本稿では,量子ハッカソン(QHack)の現実的課題を用いたペニーレーンに基づく量子コード生成のための大規模言語モデルのベンチマークを行う。我々は、QHackコンペから派生した新しいベンチマークデータセットであるQHackBenchを紹介し、バニラプロンプトとレトリーバル拡張生成(RAG)によるモデル性能の評価を行う。その結果,PennyLaneデータセットを補足したRAG強化モデルは,特に複雑な量子アルゴリズムにおいて,標準のプロンプトとほぼ同様の結果を生成することがわかった。
論文参考訳（メタデータ） (2025-06-24T20:54:56Z)
EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。 19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。 FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
Analyzing Quantum Programs with LintQ: A Static Analysis Framework for Qiskit [21.351834312054844]
本稿では,量子プログラムのバグを検出するための静的解析フレームワークLintQを提案する。我々のアプローチは、基礎となる量子コンピューティングプラットフォームを参照することなく、量子コンピューティングの共通概念を推論するために設計された一連の抽象化によって実現されている。提案手法は,実世界の7,568個のQiskitベースの量子プログラムを新たに収集したデータセットに適用し,LintQが様々なプログラミング問題を効果的に同定することを示す。
論文参考訳（メタデータ） (2023-10-01T16:36:09Z)
PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文参考訳（メタデータ） (2020-10-06T15:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。