論文の概要: QCoder Benchmark: Bridging Language Generation and Quantum Hardware through Simulator-Based Feedback
- arxiv url: http://arxiv.org/abs/2510.26101v2
- Date: Sat, 01 Nov 2025 03:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 14:12:28.013608
- Title: QCoder Benchmark: Bridging Language Generation and Quantum Hardware through Simulator-Based Feedback
- Title(参考訳): QCoderベンチマーク: シミュレータベースのフィードバックによるブリッジ言語生成と量子ハードウェア
- Authors: Taku Mikuriya, Tatsuya Ishigaki, Masayuki Kawarada, Shunya Minami, Tadashi Kadowaki, Yohichi Suzuki, Soshun Naito, Shunya Takata, Takumi Kato, Tamotsu Basseda, Reo Yamada, Hiroya Takamura,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を量子プログラミングで評価する評価フレームワークであるQCoder Benchmarkを紹介する。
提案ベンチマークは,従来のPython実行以上の量子シミュレータ環境による評価をサポートする。
GPT-4oのような先進的なモデルでさえ18.97%の精度しか達成せず、ベンチマークの難しさを強調している。
対照的に、o3のような推論ベースのモデルは78%の精度に達し、人間の書いたコードの平均成功率を上回っている。
- 参考スコア(独自算出の注目度): 7.355017519768158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have increasingly been applied to automatic programming code generation. This task can be viewed as a language generation task that bridges natural language, human knowledge, and programming logic. However, it remains underexplored in domains that require interaction with hardware devices, such as quantum programming, where human coders write Python code that is executed on a quantum computer. To address this gap, we introduce QCoder Benchmark, an evaluation framework that assesses LLMs on quantum programming with feedback from simulated hardware devices. Our benchmark offers two key features. First, it supports evaluation using a quantum simulator environment beyond conventional Python execution, allowing feedback of domain-specific metrics such as circuit depth, execution time, and error classification, which can be used to guide better generation. Second, it incorporates human-written code submissions collected from real programming contests, enabling both quantitative comparisons and qualitative analyses of LLM outputs against human-written codes. Our experiments reveal that even advanced models like GPT-4o achieve only around 18.97% accuracy, highlighting the difficulty of the benchmark. In contrast, reasoning-based models such as o3 reach up to 78% accuracy, outperforming averaged success rates of human-written codes (39.98%). We release the QCoder Benchmark dataset and public evaluation API to support further research. (Codes and datasets are available at https://qcoder-bench.github.io/ )
- Abstract(参考訳): 大規模言語モデル(LLM)は、プログラミングコードの自動生成にますます応用されている。
このタスクは、自然言語、人間の知識、プログラミングロジックを橋渡しする言語生成タスクと見なすことができる。
しかし、量子プログラミングのようなハードウェアデバイスとのインタラクションを必要とする領域では、人間のコーダーが量子コンピュータ上で実行されたPythonコードを記述している領域では、まだ探索されていない。
このギャップに対処するために、シミュレーションハードウェアデバイスからのフィードバックで量子プログラミングのLLMを評価する評価フレームワークであるQCoder Benchmarkを紹介した。
私たちのベンチマークには2つの重要な特徴があります。
まず、従来のPython実行以上の量子シミュレータ環境による評価をサポートし、回路深度、実行時間、エラー分類といったドメイン固有のメトリクスのフィードバックを、より良い生成を導くために使用できる。
第二に、実際のプログラミングコンテストから収集された人間によるコード入力を組み込んでおり、LLM出力と人間によるコードとの定量的比較と質的分析の両方を可能にしている。
我々の実験によると、GPT-4oのような先進モデルでさえ18.97%の精度しか達成できず、ベンチマークの難しさを強調している。
対照的に、o3のような推論ベースのモデルは78%の精度に達し、人間の書いたコードの平均成功率(39.98%)を上回っている。
さらなる研究を支援するため、QCoder Benchmarkデータセットと公開評価APIをリリースしました。
(コードとデータセットはhttps://qcoder-bench.github.io/)。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:36:43Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Extending Python for Quantum-Classical Computing via Quantum
Just-in-Time Compilation [78.8942067357231]
Pythonは、その柔軟性、ユーザビリティ、可読性、開発者の生産性を重視することで有名な人気のあるプログラミング言語です。
量子ジャスト・イン・タイム・コンパイルのための堅牢なC++インフラストラクチャを通じて、異種量子古典計算を可能にするPythonの言語拡張を提案する。
論文 参考訳(メタデータ) (2021-05-10T21:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。