論文の概要: A Dual-Positive Monotone Parameterization for Multi-Segment Bids and a Validity Assessment Framework for Reinforcement Learning Agent-based Simulation of Electricity Markets
- arxiv url: http://arxiv.org/abs/2604.10252v1
- Date: Sat, 11 Apr 2026 15:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.925629
- Title: A Dual-Positive Monotone Parameterization for Multi-Segment Bids and a Validity Assessment Framework for Reinforcement Learning Agent-based Simulation of Electricity Markets
- Title(参考訳): 電力市場シミュレーションに基づく強化学習エージェントのマルチセグメントバイドに対する二重正のモノトンパラメータ化と妥当性評価フレームワーク
- Authors: Zunnan Xu, Zhaoxia Jing, Zhanhua Pan,
- Abstract要約: 強化学習エージェントに基づくシミュレーション(RL-ABS)は,電力市場メカニズムの解析と評価において重要なツールとなっている。
既存の方法では、ポリシーネットワークはまず制約のない動作を出力し、モノトニック性と有界性を満たす実行可能な入札曲線に変換する。
- 参考スコア(独自算出の注目度): 4.750466932394831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agent-based simulation (RL-ABS) has become an important tool for electricity market mechanism analysis and evaluation. In the modeling of monotone, bounded, multi-segment stepwise bids, existing methods typically let the policy network first output an unconstrained action and then convert it into a feasible bid curve satisfying monotonicity and boundedness through post-processing mappings such as sorting, clipping, or projection. However, such post-processing mappings often fail to satisfy continuous differentiability, injectivity, and invertibility at boundaries or kinks, thereby causing gradient distortion and leading to spurious convergence in simulation results. Meanwhile, most existing studies conduct mechanism analysis and evaluation mainly on the basis of training-curve convergence, without rigorously assessing the distance between the simulation outcomes and Nash equilibrium, which severely undermines the credibility of the results. To address these issues, this paper proposes...
- Abstract(参考訳): 強化学習エージェントに基づくシミュレーション(RL-ABS)は,電力市場メカニズムの解析と評価において重要なツールとなっている。
モノトーン、有界、マルチセグメントの段階的入札のモデリングにおいて、既存の手法は、通常、ポリシーネットワークがまず制約のない動作を出力し、ソート、クリッピング、投影のような後処理のマッピングを通じて、単調性と有界性を満足する実行可能な入札曲線に変換する。
しかし、そのような後処理写像は、しばしば境界や接点における連続的な微分可能性、射影率、可逆性を満たすことができず、結果として勾配歪みが生じ、シミュレーション結果に急激な収束をもたらす。
一方、既存のほとんどの研究では、シミュレーション結果とナッシュ均衡の間の距離を厳格に評価することなく、主にトレーニング曲線収束に基づくメカニズム解析と評価を行い、その結果の信頼性を著しく損なう。
これらの問題に対処するために、本論文は...
関連論文リスト
- Adaptive Manipulation Potential and Haptic Estimation for Tool-Mediated Interaction [14.888648782445694]
本稿では,ツール間相互作用の統一表現として,パラメータ化された平衡マニフォールド(EM)を提案する。
我々は,ハプティック推定,オンライン計画,適応剛性制御を統合したクローズドループフレームワークを開発した。
このフレームワークはシミュレーションと260以上の現実世界のスクリューロージング試験によって検証されている。
論文 参考訳(メタデータ) (2026-03-11T02:57:55Z) - Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation [54.29523408543184]
シミュレーションと意思決定の学習は、現実世界の展開を危険にさらすことなく、デジタル環境で安全なポリシートレーニングを可能にする。
既存のアプローチでは、平均的なシミュレーションの忠実さを改善するか、保守的な正規化を採用するかに重点を置いている。
提案するSim2Actは,シミュレータとポリシーのロバスト性の両方に対処するロバストなシミュレーション・トゥ・意思決定フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T00:51:47Z) - Quantifying and Attributing Submodel Uncertainty in Stochastic Simulation Models and Digital Twins [0.1234398109349733]
本稿では,サブモデルの不確実性がシステム性能指標の推定に与える影響について検討する。
本研究では,シミュレーションモデルにおけるサブモデル不確実性を定量化するためのフレームワークを開発し,そのフレームワークをデジタルツイン設定に拡張する。
論文 参考訳(メタデータ) (2026-02-18T00:06:39Z) - Amortised and provably-robust simulation-based inference [8.066034633422252]
本稿では,一般化ベイズ推論に基づくシミュレーションに基づく推論手法を提案する。
マルコフ連鎖モンテカルロサンプリングを必要とせずに推論をさらに単純化し実行できることを実証する。
論文 参考訳(メタデータ) (2026-02-11T19:54:27Z) - Uncovering Cross-Objective Interference in Multi-Objective Alignment [24.025539867037335]
大規模言語モデル(LLM)の多目的アライメントにおける永続的障害モードについて検討し、学習は目的のサブセットのみの性能を向上させると同時に、他のモデルの劣化を引き起こす。
論文 参考訳(メタデータ) (2026-02-06T16:55:27Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。