論文の概要: Curriculum-Guided Reinforcement Learning for Synthesizing Gas-Efficient Financial Derivatives Contracts
- arxiv url: http://arxiv.org/abs/2509.23976v1
- Date: Sun, 28 Sep 2025 17:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.565518
- Title: Curriculum-Guided Reinforcement Learning for Synthesizing Gas-Efficient Financial Derivatives Contracts
- Title(参考訳): ガス効率のよい金融デリバティブ契約の合成のためのカリキュラム指導型強化学習
- Authors: Maruf Ahmed Mridul, Oshani Seneviratne,
- Abstract要約: 本稿では,共通ドメインモデル(CDM)仕様から直接スマートコントラクトを生成するための強化学習フレームワークを提案する。
我々は、事前定義されたライブラリから最適なコードスニペットを選択することを学ぶPPO(Proximal Policy Optimization)エージェントを使用している。
我々の実証実験の結果、RLエージェントは、大きなガス削減を伴う契約を学習し、見当たらない試験データに対して最大35.59%のコスト削減を実現した。
- 参考スコア(独自算出の注目度): 1.1565257196553245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smart contract-based automation of financial derivatives offers substantial efficiency gains, but its real-world adoption is constrained by the complexity of translating financial specifications into gas-efficient executable code. In particular, generating code that is both functionally correct and economically viable from high-level specifications, such as the Common Domain Model (CDM), remains a significant challenge. This paper introduces a Reinforcement Learning (RL) framework to generate functional and gas-optimized Solidity smart contracts directly from CDM specifications. We employ a Proximal Policy Optimization (PPO) agent that learns to select optimal code snippets from a pre-defined library. To manage the complex search space, a two-phase curriculum first trains the agent for functional correctness before shifting its focus to gas optimization. Our empirical results show the RL agent learns to generate contracts with significant gas savings, achieving cost reductions of up to 35.59% on unseen test data compared to unoptimized baselines. This work presents a viable methodology for the automated synthesis of reliable and economically sustainable smart contracts, bridging the gap between high-level financial agreements and efficient on-chain execution.
- Abstract(参考訳): 金融デリバティブのスマートコントラクトベースの自動化は、大幅な効率向上をもたらすが、実際の採用は、金融仕様をガス効率の実行可能なコードに変換する複雑さによって制限される。
特に、CDM(Common Domain Model)のような高レベルの仕様から機能的に正確かつ経済的に実行可能なコードを生成することは、依然として大きな課題です。
本稿では,CDM仕様から直接,機能的かつガス最適化されたSolidityスマートコントラクトを生成するための強化学習(RL)フレームワークを提案する。
我々は、事前定義されたライブラリから最適なコードスニペットを選択することを学ぶPPO(Proximal Policy Optimization)エージェントを使用している。
複雑な探索空間を管理するために、2段階のカリキュラムは、ガス最適化に焦点を移す前に、まずそのエージェントに機能的正しさを訓練する。
実験結果から, RL エージェントは, 大幅なガス削減を達成し, 未確認試験データに対して最大35.59%のコスト削減を実現した。
この研究は、信頼性と経済的に持続可能なスマートコントラクトの自動合成のための実行可能な方法論を示し、ハイレベルな金融契約と効率的なオンチェーン実行のギャップを埋める。
関連論文リスト
- A Preference-Driven Methodology for High-Quality Solidity Code Generation [11.139579355590332]
textbfmytitleは、人間の好みを超えて標準DPOを拡張して、定量化されたブロックチェーン固有のメトリクスを組み込む新しいフレームワークである。
本稿では,Pass@k(機能的正当性),Compile@k(機能的正当性),Gas@k(ガス効率),Secure@k(セキュリティ評価)の4つの相補的指標を用いた総合的評価手法を紹介する。
私たちのフレームワークは、すべての臨界次元にわたって既存のアプローチを著しく上回り、66.7%のPass@5、58.9%のGas@5、62.5%のSecure@5を達成しています。
論文 参考訳(メタデータ) (2025-06-03T15:45:31Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - Delegating Data Collection in Decentralized Machine Learning [67.0537668772372]
分散機械学習(ML)エコシステムの出現に動機付けられ,データ収集のデリゲートについて検討する。
我々は、2つの基本的な情報非対称性を扱う最適でほぼ最適な契約を設計する。
最適効用の1-1/e分を達成できるような単純な線形契約により、主成分がそのような非対称性に対処できることが示される。
論文 参考訳(メタデータ) (2023-09-04T22:16:35Z) - Delegated Classification [21.384062337682185]
機械学習タスクのインセンティブ対応デリゲーションに関する理論的枠組みを提案する。
予算最適契約を定義し、合理的な仮定の下で単純なしきい値を取ることを証明します。
実証的に、我々は予算最適契約を小規模データを用いて構築できることを実証した。
論文 参考訳(メタデータ) (2023-06-20T11:59:03Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。