論文の概要: PennyLang: Pioneering LLM-Based Quantum Code Generation with a Novel PennyLane-Centric Dataset
- arxiv url: http://arxiv.org/abs/2503.02497v3
- Date: Tue, 05 Aug 2025 11:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:33.812266
- Title: PennyLang: Pioneering LLM-Based Quantum Code Generation with a Novel PennyLane-Centric Dataset
- Title(参考訳): PennyLang:新しいペニーレーン中心データセットによるLLMベースの量子コード生成のパイオニア化
- Authors: Abdul Basit, Nouhaila Innan, Muhammad Haider Asif, Minghao Shao, Muhammad Kashif, Alberto Marchisio, Muhammad Shafique,
- Abstract要約: PennyLang(ペニーラン)は、ペニーレーン固有の量子コードサンプル3,347の、市販の高品質データセットである。
コントリビューションは、(1)PennyLangの作成とオープンソースリリース、(2)自動量子コードデータセット構築のためのフレームワーク、(3)データセットのベースライン評価である。
Qiskitにフォーカスした研究を超えて、私たちはLLMベースのツールと再現可能なメソッドをPennyLaneに持ち込み、AI支援量子開発を前進させます。
- 参考スコア(独自算出の注目度): 4.826802034066811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) offer powerful capabilities in code generation, natural language understanding, and domain-specific reasoning. Their application to quantum software development remains limited, in part because of the lack of high-quality datasets both for LLM training and as dependable knowledge sources. To bridge this gap, we introduce PennyLang, an off-the-shelf, high-quality dataset of 3,347 PennyLane-specific quantum code samples with contextual descriptions, curated from textbooks, official documentation, and open-source repositories. Our contributions are threefold: (1) the creation and open-source release of PennyLang, a purpose-built dataset for quantum programming with PennyLane; (2) a framework for automated quantum code dataset construction that systematizes curation, annotation, and formatting to maximize downstream LLM usability; and (3) a baseline evaluation of the dataset across multiple open-source models, including ablation studies, all conducted within a retrieval-augmented generation (RAG) pipeline. Using PennyLang with RAG substantially improves performance: for example, Qwen 7B's success rate rises from 8.7% without retrieval to 41.7% with full-context augmentation, and LLaMa 4 improves from 78.8% to 84.8%, while also reducing hallucinations and enhancing quantum code correctness. Moving beyond Qiskit-focused studies, we bring LLM-based tools and reproducible methods to PennyLane for advancing AI-assisted quantum development.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コード生成、自然言語理解、ドメイン固有の推論において強力な機能を提供します。
量子ソフトウェア開発への応用は、LLMトレーニングと信頼性の高い知識ソースの両方に高品質なデータセットが欠如していることから、依然として限定的である。
このギャップを埋めるために、私たちはPennyLangを紹介します。PennyLane固有の3,347の量子コードサンプルで、教科書、公式ドキュメント、オープンソースリポジトリからキュレーションされたコンテキスト記述を備えた、オフザシェルフで高品質なデータセットです。
コントリビューションは,(1)PennyLaneによる量子プログラミングのための汎用データセットであるPennyLangの作成とオープンソースリリース,(2)下流のLLMユーザビリティを最大化するためにキュレーション,アノテーション,フォーマットを体系化する自動量子コードデータセット構築のためのフレームワーク,(3)アブレーション研究を含む複数のオープンソースモデルにわたるデータセットのベースライン評価,の3つです。
例えば、Qwen 7Bの成功率は検索なしで8.7%から41.7%に増加し、LLaMa 4は78.8%から84.8%に改善され、幻覚を減らし、量子コードの正しさが向上した。
Qiskitにフォーカスした研究を超えて、私たちはLLMベースのツールと再現可能なメソッドをPennyLaneに持ち込み、AI支援量子開発を前進させます。
関連論文リスト
- PennyCoder: Efficient Domain-Specific LLMs for PennyLane-Based Quantum Code Generation [4.826802034066811]
PennyCoderは、ローカルおよび組み込みデプロイメント用に設計された量子コード生成のための新しいフレームワークである。
提案手法は,高モデルの有効性を維持しつつ,デバイスネイティブな操作性を強調する。
我々はPennyCoderを包括的量子プログラミングデータセットで厳格に評価し、44.3%の精度を達成した。
論文 参考訳(メタデータ) (2025-07-25T12:02:49Z) - LIFT: LLM-Based Pragma Insertion for HLS via GNN Supervised Fine-Tuning [38.679497621876926]
LIFTは大規模な言語モデル(LLM)ベースのHLSのためのコーディングアシスタントで、パフォーマンスクリティカルなプラグマを自動的に生成する。
我々は、グラフニューラルネットワーク(GNN)でトレーニングプロセスを密に統合し、監督することにより、LSMを微調整する。
論文 参考訳(メタデータ) (2025-04-29T21:42:59Z) - Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't [0.0]
小型言語モデル(LLM)における強化学習による推論改善の可能性について検討した。
24時間以内に4つのNVIDIA A40 GPU(それぞれ48GB VRAM)をトレーニングした結果、素早い推論が向上した。
これらの結果から, 小型LLMに対するRLを用いた微調整の有効性が明らかとなり, 大規模アプローチに対する費用対効果が示唆された。
論文 参考訳(メタデータ) (2025-03-20T15:13:23Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - Resource-Efficient & Effective Code Summarization [3.512140256677132]
QLoRAのようなGreenAI技術は、大規模モデルのサステナビリティを扱うための有望なパスを提供する。
本研究では,Python と Java の2つのプログラミング言語にまたがる最先端の CLM の評価を行った。
その結果、QLoRAはコード要約のためのCLMを効率的に微調整できることがわかった。
論文 参考訳(メタデータ) (2025-02-05T21:06:30Z) - Correctness Assessment of Code Generated by Large Language Models Using Internal Representations [4.32362000083889]
大規模言語モデル(LLM)が生成するコードの正確性を評価する新しいフレームワークであるOPENIAを紹介する。
我々の経験的分析により、これらの内部表現が潜時情報を符号化し、生成したコードの正しさと強く相関していることが明らかとなった。
OPENIAはベースラインモデルより一貫して優れており、高い精度、精度、リコール、F1スコアを実現し、スタンドアロンコード生成の最大2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-01-22T15:04:13Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Simple Is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Qiskit HumanEval: An Evaluation Benchmark For Quantum Code Generative Models [1.8213213818713139]
我々は、Qiskit HumanEvalデータセットを導入し、量子コードを生成するための大規模言語モデルの能力をベンチマークするために使用します。
このデータセットは100以上の量子コンピューティングタスクから構成されており、それぞれにプロンプト、標準解、そして生成した解の正確性を評価するのに困難スケールが伴っている。
論文 参考訳(メタデータ) (2024-06-20T20:14:22Z) - Qiskit Code Assistant: Training LLMs for generating Quantum Computing Code [2.0108122340549985]
本稿では,量子コンピューティングの分野を専門とする Code LLM のトレーニングに焦点をあてる。
量子コンピューティングに特化したコードLLMは、量子コンピューティングと量子情報理論の基本的な理解を必要とする。
我々は,Qiskitライブラリを用いて,高品質な量子コードを生成するための Code LLMs のトレーニングについて論じる。
論文 参考訳(メタデータ) (2024-05-29T20:21:00Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Quantum Computing Enhanced Service Ecosystem for Simulation in Manufacturing [56.61654656648898]
本稿では,製造シミュレーションのための量子コンピューティングによるサービスエコシステムの枠組みを提案する。
我々は,これらの新しい計算パラダイムを定量的に評価することを目的とした2つの高価値ユースケースを分析した。
論文 参考訳(メタデータ) (2024-01-19T11:04:14Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - ShadowNet for Data-Centric Quantum System Learning [188.683909185536]
本稿では,ニューラルネットワークプロトコルと古典的シャドウの強みを組み合わせたデータ中心学習パラダイムを提案する。
ニューラルネットワークの一般化力に基づいて、このパラダイムはオフラインでトレーニングされ、これまで目に見えないシステムを予測できる。
量子状態トモグラフィーおよび直接忠実度推定タスクにおいて、我々のパラダイムのインスタンス化を示し、60量子ビットまでの数値解析を行う。
論文 参考訳(メタデータ) (2023-08-22T09:11:53Z) - Semi-definite programming and quantum information [0.0]
本稿では,量子情報の文脈における半定値プログラミング(SDP)手法の包括的探索について述べる。
凸最適化、双対性、SDP定式化の数学的基礎について検討する。
これらのツールを活用することで、研究者や実践者は古典的および量子的相関を特徴づけ、量子状態を最適化し、効率的な量子アルゴリズムとプロトコルを設計することができる。
論文 参考訳(メタデータ) (2023-06-28T21:02:06Z) - On exploring the potential of quantum auto-encoder for learning quantum systems [60.909817434753315]
そこで我々は,古典的な3つのハードラーニング問題に対処するために,QAEに基づく効果的な3つの学習プロトコルを考案した。
私たちの研究は、ハード量子物理学と量子情報処理タスクを達成するための高度な量子学習アルゴリズムの開発に新たな光を当てています。
論文 参考訳(メタデータ) (2021-06-29T14:01:40Z) - Quantum Federated Learning with Quantum Data [87.49715898878858]
量子機械学習(QML)は、量子コンピューティングの発展に頼って、大規模な複雑な機械学習問題を探求する、有望な分野として登場した。
本稿では、量子データ上で動作し、量子回路パラメータの学習を分散的に共有できる初めての完全量子連合学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:19:27Z) - Quantum Annealing for Semi-Supervised Learning [5.714334716737985]
セミ教師付き学習は、ラベル付きデータとラベルなしデータの両方をトレーニングに使う機械学習技術である。
本稿では,量子アニール法を用いて,グラフに基づく半教師付き学習手法を提案し,理論的に解析する。
本稿では,ラベル付きデータの一部(20%)が関与している場合でも,本手法の有効性を示唆する2つの分類例を示す。
論文 参考訳(メタデータ) (2020-03-27T15:09:44Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。