論文の概要: An Explainable Equity-Aware P2P Energy Trading Framework for Socio-Economically Diverse Microgrid
- arxiv url: http://arxiv.org/abs/2507.18738v1
- Date: Thu, 24 Jul 2025 18:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.720746
- Title: An Explainable Equity-Aware P2P Energy Trading Framework for Socio-Economically Diverse Microgrid
- Title(参考訳): 社会経済的逆マイクログリッドのための説明可能なP2Pエネルギートレーディングフレームワーク
- Authors: Abhijan Theja, Mayukha Pal,
- Abstract要約: 本稿では、多目的混合整数線形プログラミング(MILP)、協調ゲーム理論、強化学習(RL)によって駆動される動的エクイティ調整機構を統合する新しいフレームワークを提案する。
この枠組みは、最大72.6%のピーク需要削減と、大きな協力的な利益を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fair and dynamic energy allocation in community microgrids remains a critical challenge, particularly when serving socio-economically diverse participants. Static optimization and cost-sharing methods often fail to adapt to evolving inequities, leading to participant dissatisfaction and unsustainable cooperation. This paper proposes a novel framework that integrates multi-objective mixed-integer linear programming (MILP), cooperative game theory, and a dynamic equity-adjustment mechanism driven by reinforcement learning (RL). At its core, the framework utilizes a bi-level optimization model grounded in Equity-regarding Welfare Maximization (EqWM) principles, which incorporate Rawlsian fairness to prioritize the welfare of the least advantaged participants. We introduce a Proximal Policy Optimization (PPO) agent that dynamically adjusts socio-economic weights in the optimization objective based on observed inequities in cost and renewable energy access. This RL-powered feedback loop enables the system to learn and adapt, continuously striving for a more equitable state. To ensure transparency, Explainable AI (XAI) is used to interpret the benefit allocations derived from a weighted Shapley value. Validated across six realistic scenarios, the framework demonstrates peak demand reductions of up to 72.6%, and significant cooperative gains. The adaptive RL mechanism further reduces the Gini coefficient over time, showcasing a pathway to truly sustainable and fair energy communities.
- Abstract(参考訳): コミュニティマイクログリッドにおける公平かつダイナミックなエネルギー配分は、特に社会経済的に多様な参加者に奉仕する際には、依然として重要な課題である。
静的な最適化とコスト共有の方法は、しばしば進化する不平等に適応できず、参加者の不満と持続不可能な協力につながります。
本稿では、多目的混合整数線形プログラミング(MILP)、協調ゲーム理論、強化学習(RL)によって駆動される動的株式調整機構を統合する新しいフレームワークを提案する。
フレームワークの中核となるのは、EqWM(Equity-Regarding Welfare Maximization)原則に基づく二段階最適化モデルである。
本稿では,コストと再生可能エネルギーアクセスの観測結果に基づいて,社会経済的重み付けを最適化目標に動的に調整するPPOエージェントを提案する。
このRLを用いたフィードバックループにより、システムは学習し、適応し、より公平な状態に向けて継続的な努力を行うことができる。
透明性を確保するために、説明可能なAI(XAI)は、重み付けされたShapley値から得られる利益配分を解釈するために使用される。
6つの現実的なシナリオにまたがって検証されたこの枠組みは、最大72.6%の需要削減と、大きな協力的利益を実証している。
適応的なRL機構は、時間とともにジニ係数をさらに減少させ、真に持続的で公平なエネルギー共同体への経路を示す。
関連論文リスト
- Provable and Practical In-Context Policy Optimization for Self-Improvement [49.670847804409874]
本研究では,モデルが推論における複数ラウンドの自己回帰によって解答を改善するテスト時間スケーリングについて検討する。
In-Context Policy Optimization (ICPO)を導入し、エージェントはパラメータを変更することなく、自己評価または外部から観察された報酬を用いて、その応答を文脈で最適化する。
提案する最小エントロピーICPO(ME-ICPO, Minimum-Entropy ICPO)は、その応答と自己評価報酬を反復的に利用して、推論時にその応答を洗練する実用的なアルゴリズムである。
論文 参考訳(メタデータ) (2026-03-02T00:21:50Z) - Fairness Aware Reward Optimization [78.85867531002346]
本稿では,Fairness Aware Reward Optimization (Faro)を紹介した。Fairness Aware Reward Optimization (Faro)は,階層的平等,等化オッズ,あるいは反実的フェアネス制約の下で報酬モデルを訓練するプロセス内フレームワークである。
LLMアライメントにおける報酬レベルの公平性に関する最初の理論的解析を行った。
Faroはモデルの品質を維持したり改善したりしながら、バイアスや有害な世代を著しく削減します。
論文 参考訳(メタデータ) (2026-02-08T03:35:49Z) - Toward a Sustainable Federated Learning Ecosystem: A Practical Least Core Mechanism for Payoff Allocation [71.86087908416255]
最小コア(LC)概念に基づく配当フレームワークを提案する。
従来の方法とは異なり、LCは最大の不満を最小限に抑えてフェデレーションの凝集を優先する。
統合侵入検知におけるケーススタディは、我々のメカニズムが重要な貢献者や戦略的提携を正しく識別できることを実証している。
論文 参考訳(メタデータ) (2026-02-03T11:10:50Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Scalable Fairness Shaping with LLM-Guided Multi-Agent Reinforcement Learning for Peer-to-Peer Electricity Markets [3.7321070110102075]
ピアツーピア(P2P)エネルギー取引は現代の流通システムの中心となっている。
フェアネスを考慮したマルチエージェント強化学習フレームワークであるFairMarket-RLを提案する。
この枠組みは、取引所を地元のP2P取引にシフトさせ、グリッドのみの調達に対する消費者コストを下げ、参加者間の強い公正性を維持し、実用性を維持する。
論文 参考訳(メタデータ) (2025-08-26T02:25:17Z) - MOHAF: A Multi-Objective Hierarchical Auction Framework for Scalable and Fair Resource Allocation in IoT Ecosystems [0.565395466029518]
本稿では、コスト、QoS(Quality of Service)、エネルギー効率、公平性を共同で最適化する分散リソース割り当て機構を提案する。
3,553の要求と888のリソースからなるGoogle Cluster Dataトレースの実験では、完全な公正性(Jainのインデックス=1.000)を達成しつつ、MOHAFの優れたアロケーション効率(0.185)、First-Price(0.138)、Random(0.101)のオークションを実証した。
論文 参考訳(メタデータ) (2025-08-20T16:25:37Z) - VAE-GAN Based Price Manipulation in Coordinated Local Energy Markets [3.498661956610689]
本稿では,地域エネルギー市場(LEM)における不均一分散エネルギー資源(DER)との協調モデルを提案する。
提案手法は,マルチエージェントディープ決定性ポリシー勾配(MADDPG)に基づくデータ駆動型モデルフリー強化学習手法を利用する。
本研究では,変動型自動エンコーダ生成敵ネットワーク(VAE-GAN)モデルを用いた価格操作戦略について検討する。
論文 参考訳(メタデータ) (2025-07-26T07:38:27Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Integrated Optimization and Game Theory Framework for Fair Cost Allocation in Community Microgrids [0.0]
本稿では,多目的最適化と協調ゲーム理論を統合した新しいフレームワークを提案する。
その結果、需要のピークは7.8%から62.6%まで減少し、太陽利用率は114.8%に達した。
論文 参考訳(メタデータ) (2025-02-13T04:28:17Z) - Demand Response Optimization MILP Framework for Microgrids with DERs [0.0]
本稿では,太陽光発電システムと蓄電池システムを備えたマイクログリッドにおける需要応答を最適化するための枠組みを提案する。
このフレームワークには、負荷分類、動的価格閾値設定、最適DRイベントスケジューリングのための多周期調整が含まれている。
論文 参考訳(メタデータ) (2025-02-12T20:10:51Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Evaluation of Prosumer Networks for Peak Load Management in Iran: A Distributed Contextual Stochastic Optimization Approach [0.0]
本稿では,イランにおけるピーク負荷軽減を目的とした新しいプロシューマーネットワークフレームワークを提案する。
コスト指向の統合予測と最適化手法を提案する。
数値的な結果から,最適化とコンテキスト情報共有ネットワークの実装による予測の統合は,ピーク負荷と総コストを著しく削減することがわかった。
論文 参考訳(メタデータ) (2024-08-31T16:09:38Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Self-Supervised Learning for Large-Scale Preventive Security Constrained DC Optimal Power Flow [20.078717680640214]
SCOPF(Security-Constrained Optimal Power Flow)は、電力グリッドの安定性において重要な役割を果たすが、システムが成長するにつれてますます複雑になる。
本稿では,大規模SCOPF問題に対する準最適解を生成するための,自己教師付きエンドツーエンドのPDL-SCOPFについて紹介する。
論文 参考訳(メタデータ) (2023-11-29T20:36:35Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。