論文の概要: PennyLang: Pioneering LLM-Based Quantum Code Generation with a Novel PennyLane-Centric Dataset
- arxiv url: http://arxiv.org/abs/2503.02497v1
- Date: Tue, 04 Mar 2025 11:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:39.487774
- Title: PennyLang: Pioneering LLM-Based Quantum Code Generation with a Novel PennyLane-Centric Dataset
- Title(参考訳): PennyLang:新しいペニーレーン中心データセットによるLLMベースの量子コード生成のパイオニア化
- Authors: Haider Asif, Abdul Basit, Nouhaila Innan, Muhammad Kashif, Alberto Marchisio, Muhammad Shafique,
- Abstract要約: 大きな言語モデル(LLM)は、コード生成、自然言語処理、ドメイン固有の推論において顕著な機能を提供します。
量子回路の3,347ペニーレーン固有のコードサンプルからなる,新しい高品質なデータセットを提案する。
- 参考スコア(独自算出の注目度): 5.068845500478373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) offer remarkable capabilities in code generation, natural language processing, and domain-specific reasoning. Their potential in aiding quantum software development remains underexplored, particularly for the PennyLane framework-a leading platform for hybrid quantum-classical computing. To address this gap, we introduce a novel, high-quality dataset comprising 3,347 PennyLane-specific code samples of quantum circuits and their contextual descriptions, specifically curated to train/fine-tune LLM-based quantum code assistance. Our key contributions are threefold: (1) the automatic creation and open-source release of a comprehensive PennyLane dataset leveraging quantum computing textbooks, official documentation, and open-source repositories; (2) the development of a systematic methodology for data refinement, annotation, and formatting to optimize LLM training efficiency; and (3) a thorough evaluation, based on a Retrieval-Augmented Generation (RAG) framework, demonstrating the effectiveness of our dataset in streamlining PennyLane code generation and improving quantum development workflows. Compared to existing efforts that predominantly focus on Qiskit, our dataset significantly broadens the spectrum of quantum frameworks covered in AI-driven code assistance. By bridging this gap and providing reproducible dataset-creation methodologies, we aim to advance the field of AI-assisted quantum programming, making quantum computing more accessible to both newcomers and experienced developers.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コード生成、自然言語処理、ドメイン固有の推論において顕著な機能を提供します。
特にPennyLaneフレームワークは、ハイブリッド量子古典コンピューティングの先駆的なプラットフォームである。
このギャップに対処するために,3,347ペニーレーン固有の量子回路のコードサンプルとその文脈記述を含む,新しい高品質なデータセットを導入する。
1) 量子コンピューティング教科書,公式資料,オープンソースリポジトリを活用する包括的なPennyLaneデータセットの自動作成とオープンソースリリース,(2) LLMトレーニング効率を最適化するためのデータリファインメント,アノテーション,フォーマットのための体系的方法論の開発,(3) Retrieval-Augmented Generation (RAG) フレームワークに基づく徹底的な評価,PennyLaneコード生成の合理化と量子開発ワークフローの改善によるデータセットの有効性の実証。
Qiskitに主にフォーカスする既存の取り組みと比較して、私たちのデータセットは、AI駆動のコードアシストでカバーされる量子フレームワークのスペクトルを大きく広げています。
このギャップを埋めて再現可能なデータセット作成方法論を提供することで、我々は、AI支援量子プログラミングの分野を前進させ、量子コンピューティングを新参者および経験豊富な開発者の両方にとってよりアクセスしやすくすることを目指している。
関連論文リスト
- LIFT: LLM-Based Pragma Insertion for HLS via GNN Supervised Fine-Tuning [38.679497621876926]
LIFTは大規模な言語モデル(LLM)ベースのHLSのためのコーディングアシスタントで、パフォーマンスクリティカルなプラグマを自動的に生成する。
我々は、グラフニューラルネットワーク(GNN)でトレーニングプロセスを密に統合し、監督することにより、LSMを微調整する。
論文 参考訳(メタデータ) (2025-04-29T21:42:59Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - Resource-Efficient & Effective Code Summarization [3.512140256677132]
QLoRAのようなGreenAI技術は、大規模モデルのサステナビリティを扱うための有望なパスを提供する。
本研究では,Python と Java の2つのプログラミング言語にまたがる最先端の CLM の評価を行った。
その結果、QLoRAはコード要約のためのCLMを効率的に微調整できることがわかった。
論文 参考訳(メタデータ) (2025-02-05T21:06:30Z) - Correctness Assessment of Code Generated by Large Language Models Using Internal Representations [4.32362000083889]
大規模言語モデル(LLM)が生成するコードの正確性を評価する新しいフレームワークであるOPENIAを紹介する。
我々の経験的分析により、これらの内部表現が潜時情報を符号化し、生成したコードの正しさと強く相関していることが明らかとなった。
OPENIAはベースラインモデルより一貫して優れており、高い精度、精度、リコール、F1スコアを実現し、スタンドアロンコード生成の最大2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-01-22T15:04:13Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Simple Is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Qiskit HumanEval: An Evaluation Benchmark For Quantum Code Generative Models [1.8213213818713139]
我々は、Qiskit HumanEvalデータセットを導入し、量子コードを生成するための大規模言語モデルの能力をベンチマークするために使用します。
このデータセットは100以上の量子コンピューティングタスクから構成されており、それぞれにプロンプト、標準解、そして生成した解の正確性を評価するのに困難スケールが伴っている。
論文 参考訳(メタデータ) (2024-06-20T20:14:22Z) - Qiskit Code Assistant: Training LLMs for generating Quantum Computing Code [2.0108122340549985]
本稿では,量子コンピューティングの分野を専門とする Code LLM のトレーニングに焦点をあてる。
量子コンピューティングに特化したコードLLMは、量子コンピューティングと量子情報理論の基本的な理解を必要とする。
我々は,Qiskitライブラリを用いて,高品質な量子コードを生成するための Code LLMs のトレーニングについて論じる。
論文 参考訳(メタデータ) (2024-05-29T20:21:00Z) - Quantum Computing Enhanced Service Ecosystem for Simulation in Manufacturing [56.61654656648898]
本稿では,製造シミュレーションのための量子コンピューティングによるサービスエコシステムの枠組みを提案する。
我々は,これらの新しい計算パラダイムを定量的に評価することを目的とした2つの高価値ユースケースを分析した。
論文 参考訳(メタデータ) (2024-01-19T11:04:14Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - ShadowNet for Data-Centric Quantum System Learning [188.683909185536]
本稿では,ニューラルネットワークプロトコルと古典的シャドウの強みを組み合わせたデータ中心学習パラダイムを提案する。
ニューラルネットワークの一般化力に基づいて、このパラダイムはオフラインでトレーニングされ、これまで目に見えないシステムを予測できる。
量子状態トモグラフィーおよび直接忠実度推定タスクにおいて、我々のパラダイムのインスタンス化を示し、60量子ビットまでの数値解析を行う。
論文 参考訳(メタデータ) (2023-08-22T09:11:53Z) - Semi-definite programming and quantum information [0.0]
本稿では,量子情報の文脈における半定値プログラミング(SDP)手法の包括的探索について述べる。
凸最適化、双対性、SDP定式化の数学的基礎について検討する。
これらのツールを活用することで、研究者や実践者は古典的および量子的相関を特徴づけ、量子状態を最適化し、効率的な量子アルゴリズムとプロトコルを設計することができる。
論文 参考訳(メタデータ) (2023-06-28T21:02:06Z) - On exploring the potential of quantum auto-encoder for learning quantum systems [60.909817434753315]
そこで我々は,古典的な3つのハードラーニング問題に対処するために,QAEに基づく効果的な3つの学習プロトコルを考案した。
私たちの研究は、ハード量子物理学と量子情報処理タスクを達成するための高度な量子学習アルゴリズムの開発に新たな光を当てています。
論文 参考訳(メタデータ) (2021-06-29T14:01:40Z) - Quantum Federated Learning with Quantum Data [87.49715898878858]
量子機械学習(QML)は、量子コンピューティングの発展に頼って、大規模な複雑な機械学習問題を探求する、有望な分野として登場した。
本稿では、量子データ上で動作し、量子回路パラメータの学習を分散的に共有できる初めての完全量子連合学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:19:27Z) - Quantum Annealing for Semi-Supervised Learning [5.714334716737985]
セミ教師付き学習は、ラベル付きデータとラベルなしデータの両方をトレーニングに使う機械学習技術である。
本稿では,量子アニール法を用いて,グラフに基づく半教師付き学習手法を提案し,理論的に解析する。
本稿では,ラベル付きデータの一部(20%)が関与している場合でも,本手法の有効性を示唆する2つの分類例を示す。
論文 参考訳(メタデータ) (2020-03-27T15:09:44Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。