論文の概要: QSpark: Towards Reliable Qiskit Code Generation
- arxiv url: http://arxiv.org/abs/2507.12642v1
- Date: Wed, 16 Jul 2025 21:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.276222
- Title: QSpark: Towards Reliable Qiskit Code Generation
- Title(参考訳): QSpark: 信頼性の高いQiskitコード生成を目指して
- Authors: Kiana Kheiri, Aamna Aamir, Andriy Miranskyy, Chen Ding,
- Abstract要約: 量子回路はエラー耐性を持つ必要があるが、Granite-20B-CodeやStarCoderのようなLCMは欠陥のあるQiskitコードを出力することが多い。
グループ相対政策最適化(GRPO)とOdds-Ratio Preference Optimization(ORPO)の2つのRL法で32Bモデルを微調整した。
Qiskit HumanEvalベンチマークでは、ORPOが56.29%のPass@1(Granite-8B-QK上ではapprox+10$ pp)に達し、GRPOが49%に達した。
- 参考スコア(独自算出の注目度): 1.2995054483818054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantum circuits must be error-resilient, yet LLMs like Granite-20B-Code and StarCoder often output flawed Qiskit code. We fine-tuned a 32 B model with two RL methods, Group Relative Policy Optimization (GRPO) and Odds-Ratio Preference Optimization (ORPO), using a richly annotated synthetic dataset. On the Qiskit HumanEval benchmark, ORPO reaches 56.29\% Pass@1 ($\approx+10$ pp over Granite-8B-QK) and GRPO hits 49\%, both beating all general-purpose baselines; on the original HumanEval they score 65.90\% and 63.00\%. GRPO excels on basic tasks (42/54), ORPO on intermediate ones (41/68), and neither solves the five advanced tasks, highlighting clear gains yet room for progress in AI-assisted quantum programming.
- Abstract(参考訳): 量子回路はエラー耐性を持つ必要があるが、Granite-20B-CodeやStarCoderのようなLCMは欠陥のあるQiskitコードを出力することが多い。
我々は、リッチな注釈付き合成データセットを用いて、グループ相対ポリシー最適化(GRPO)とOdds-Ratio Preference Optimization(ORPO)の2つのRL手法で32Bモデルを微調整した。
Qiskit HumanEval ベンチマークでは、ORPO は 56.29\% Pass@1 (\approx+10$ pp over Granite-8B-QK) に達し、GRPO は 49\% に達した。
GRPOは基本的なタスク(42/54)、中間タスク(41/68)に優れており、どちらも5つの高度なタスクを解決していない。
関連論文リスト
- TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Code Generation with Small Language Models: A Deep Evaluation on Codeforces [2.314213846671956]
小言語モデルは、より高速な推論、デプロイメントオーバーヘッドの低減、ドメイン固有のタスクへの適応性の向上を提供する。
800から2100までのEloレーティングにまたがる280のCodeforce問題の5つのオープンSLMをベンチマークします。
PHI-4 14BはSLMの中で最高の性能を発揮し、パス@3は63.6%だった。
論文 参考訳(メタデータ) (2025-04-09T23:57:44Z) - Streaming Looking Ahead with Token-level Self-reward [50.699168440048716]
本稿では,トークンレベルの自己回帰モデリング(TRM)機能を備えたポリシーモデルを提案する。
さらに,検索効率を向上し,並列化を向上するストリーミング・ルック・アヘッド (SLA) アルゴリズムを提案する。
SLAとDPOなどの強化微調整技術を組み合わせると、全体の勝利率は89.4%となる。
論文 参考訳(メタデータ) (2025-02-24T22:35:53Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - ACECODER: Acing Coder RL via Automated Test-Case Synthesis [36.740393665032954]
既存のコードデータから広範な(問い合わせ、テストケース)ペアを生成するパイプラインを設計します。
我々は,Bradley-Terry損失を伴う報酬モデルをトレーニングするために,サンプルプログラムのパスレートに基づいて選好ペアを構築した。
RLトレーニングは,80段階の最適化ステップにおいて,HumanEval+を25%以上,MBPP+を6%以上改善できることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:46:04Z) - ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,LLMに様々な粒度で自動化手法を付加するProofAugを提案する。
本手法は,オープンソースのDeep-math-7bベースモデルとIsabelle証明アシスタントを用いて,MiniF2Fベンチマークで検証した。
また、ProofAugのLean 4バージョンを実装し、Kimina-Prover-seek-Distill-1.5Bのパス@1のパフォーマンスを44.3%から50.4%に改善します。
論文 参考訳(メタデータ) (2025-01-30T12:37:06Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution [36.30158138035512]
800のPython関数(3-13行)からなるベンチマークを示す。
各関数は入力出力対を持ち、入力予測と出力予測という2つの自然なタスクに繋がる。
単純なCoTと微調整方式によってベンチマークのパフォーマンスが向上するが、その解決には程遠いことを示す。
論文 参考訳(メタデータ) (2024-01-05T20:53:51Z) - Rethinking Model Selection and Decoding for Keyphrase Generation with
Pre-trained Sequence-to-Sequence Models [76.52997424694767]
キーフレーズ生成(英: Keyphrase Generation, KPG)は、NLPにおける長年の課題である。
Seq2seq 事前訓練言語モデル (PLM) は KPG に転換期を迎え、有望な性能改善をもたらした。
本稿では, PLM に基づく KPG におけるモデル選択と復号化戦略の影響について, 系統解析を行った。
論文 参考訳(メタデータ) (2023-10-10T07:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。