論文の概要: Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing
- arxiv url: http://arxiv.org/abs/2602.10092v1
- Date: Tue, 10 Feb 2026 18:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.755517
- Title: Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing
- Title(参考訳): 量子監査:量子コンピューティングにおけるLCMの推論限界の評価
- Authors: Mohamed Afane, Kayla Laufer, Wenqi Wei, Ying Mao, Junaid Farooq, Ying Wang, Juntao Chen,
- Abstract要約: 言語モデルは量子コンピューティングの教育と研究のための実用的なツールとなっている。
量子監査(Quantum-Audit)は、コア量子コンピューティングに関する2,700の質問でこのギャップに対処する。
被験者は23%から86%で、専門家は74%だった。
トップパフォーマンスモデルはエキスパート平均を超え、クロードオプス4.5は84%の精度に達した。
- 参考スコア(独自算出の注目度): 8.719998498853299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have become practical tools for quantum computing education and research, from summarizing technical papers to explaining theoretical concepts and answering questions about recent developments in the field. While existing benchmarks evaluate quantum code generation and circuit design, their understanding of quantum computing concepts has not been systematically measured. Quantum-Audit addresses this gap with 2,700 questions covering core quantum computing topics. We evaluate 26 models from leading organizations. Our benchmark comprises 1,000 expert-written questions, 1,000 questions extracted from research papers using LLMs and validated by experts, plus an additional 700 questions including 350 open-ended questions and 350 questions with false premises to test whether models can correct erroneous assumptions. Human participants scored between 23% and 86%, with experts averaging 74%. Top-performing models exceeded the expert average, with Claude Opus 4.5 reaching 84% accuracy, though top models showed an average 12-point accuracy drop on expert-written questions compared to LLM-generated ones. Performance declined further on advanced topics, dropping to 73% on security questions. Additionally, models frequently accepted and reinforced false premises embedded in questions instead of identifying them, with accuracy below 66% on these critical reasoning tasks.
- Abstract(参考訳): 言語モデルは、技術論文の要約から理論概念の説明、この分野の最近の発展に関する質問に答えるまで、量子コンピューティング教育と研究のための実践的なツールとなっている。
既存のベンチマークでは量子コード生成と回路設計が評価されているが、量子コンピューティングの概念に対する理解は体系的に評価されていない。
量子監査(Quantum-Audit)は、コア量子コンピューティングに関する2,700の質問でこのギャップに対処する。
主要な組織から26のモデルを評価します。
このベンチマークでは、専門家が書いた1000の質問、LSMを使って研究論文から抽出した1000の質問、そして専門家が検証した700の質問、350のオープンエンドの質問、350の質問が偽の前提で、モデルが誤った仮定を正すかどうかを検証している。
被験者は23%から86%で、専門家は74%だった。
トップパフォーマンスモデルはエキスパート平均を超え、クロードオプス4.5は84%の精度に達したが、トップモデルでは専門家が書いた質問に対してLSM生成した質問に対して平均12ポイントの精度が低下した。
高度なトピックではパフォーマンスはさらに低下し、セキュリティ問題では73%にまで低下した。
さらに、モデルはしばしば、それらを特定する代わりに質問に埋め込まれ、強化された偽の前提を受け入れ、これら重要な推論タスクの精度は66%以下であった。
関連論文リスト
- Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - QuantumBench: A Benchmark for Quantum Problem Solving [20.17344442510975]
本研究では量子領域のベンチマークであるQuantumBenchを紹介する。
約800の質問をまとめ、その答えは量子科学に関連する9つの領域にまたがった。
質問形式の変化に対する感度を含む量子領域におけるそれらの性能を解析する。
論文 参考訳(メタデータ) (2025-10-30T06:44:03Z) - An Improved Quantum Software Challenges Classification Approach using Transfer Learning and Explainable AI [2.765435313371949]
開発者はStack Overflow(SO)を使用して、課題について議論し、特殊な量子タグでポストをラベル付けする。
量子関連タグを用いてQ&Aプラットフォームから2829の質問を抽出した。
ポストは、頻繁な課題を特定し、新しい根拠理論を開発するために分析された。
論文 参考訳(メタデータ) (2025-09-25T12:19:50Z) - Challenges and Practices in Quantum Software Testing and Debugging: Insights from Practitioners [7.856941186056147]
量子コンピューティングが理論から実装へと移行するにつれて、開発者は古典的なソフトウェア開発に存在しない問題に直面します。
学術と産業から26人の量子ソフトウェア開発者を調査しました。
量子固有のテストツールを使用したと報告したのはわずか31%で、代わりに手作業による。
論文 参考訳(メタデータ) (2025-06-18T02:52:37Z) - Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [63.84117489519164]
知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文 参考訳(メタデータ) (2025-05-29T14:44:52Z) - R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - Analyzing Quantum Programs with LintQ: A Static Analysis Framework for Qiskit [21.351834312054844]
本稿では,量子プログラムのバグを検出するための静的解析フレームワークLintQを提案する。
我々のアプローチは、基礎となる量子コンピューティングプラットフォームを参照することなく、量子コンピューティングの共通概念を推論するために設計された一連の抽象化によって実現されている。
提案手法は,実世界の7,568個のQiskitベースの量子プログラムを新たに収集したデータセットに適用し,LintQが様々なプログラミング問題を効果的に同定することを示す。
論文 参考訳(メタデータ) (2023-10-01T16:36:09Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。