論文の概要: FairMarket-RL: LLM-Guided Fairness Shaping for Multi-Agent Reinforcement Learning in Peer-to-Peer Markets
- arxiv url: http://arxiv.org/abs/2506.22708v1
- Date: Sat, 28 Jun 2025 01:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.524248
- Title: FairMarket-RL: LLM-Guided Fairness Shaping for Multi-Agent Reinforcement Learning in Peer-to-Peer Markets
- Title(参考訳): FairMarket-RL:ピアツーピア市場におけるマルチエージェント強化学習のためのLLM誘導フェアネスシェーピング
- Authors: Shrenik Jadhav, Birva Sevak, Srijita Das, Akhtar Hussain, Wencong Su, Van-Hai Bui,
- Abstract要約: 本稿では,Large Language Models (LLMs) とReinforcement Learning (RL) を組み合わせた新しいフレームワークであるFairMarket-RLについて述べる。
複数の売り手や買い手によるシミュレーションされたP2Pマイクログリッドでは、LLMはリアルタイムフェアネス評論家として、Fairness-To-Buyer(FTB)とFairness-Between-Sellers(FBS)の2つの指標を使用して、各トレーディングエピソードを評価する。
- 参考スコア(独自算出の注目度): 1.7284653203366598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Peer-to-peer (P2P) trading is increasingly recognized as a key mechanism for decentralized market regulation, yet existing approaches often lack robust frameworks to ensure fairness. This paper presents FairMarket-RL, a novel hybrid framework that combines Large Language Models (LLMs) with Reinforcement Learning (RL) to enable fairness-aware trading agents. In a simulated P2P microgrid with multiple sellers and buyers, the LLM acts as a real-time fairness critic, evaluating each trading episode using two metrics: Fairness-To-Buyer (FTB) and Fairness-Between-Sellers (FBS). These fairness scores are integrated into agent rewards through scheduled {\lambda}-coefficients, forming an adaptive LLM-guided reward shaping loop that replaces brittle, rule-based fairness constraints. Agents are trained using Independent Proximal Policy Optimization (IPPO) and achieve equitable outcomes, fulfilling over 90% of buyer demand, maintaining fair seller margins, and consistently reaching FTB and FBS scores above 0.80. The training process demonstrates that fairness feedback improves convergence, reduces buyer shortfalls, and narrows profit disparities between sellers. With its language-based critic, the framework scales naturally, and its extension to a large power distribution system with household prosumers illustrates its practical applicability. FairMarket-RL thus offers a scalable, equity-driven solution for autonomous trading in decentralized energy systems.
- Abstract(参考訳): ピアツーピア(P2P)トレーディングは、市場規制を分散化するための重要なメカニズムとしてますます認識されているが、既存のアプローチは公正性を確保するための堅牢なフレームワークを欠いていることが多い。
本稿では,Large Language Models (LLM) とReinforcement Learning (RL) を組み合わせた新たなハイブリッドフレームワークであるFairMarket-RLについて述べる。
複数の売り手や買い手によるシミュレーションされたP2Pマイクログリッドでは、LLMはリアルタイムフェアネス評論家として、Fairness-To-Buyer(FTB)とFairness-Between-Sellers(FBS)の2つの指標を使用して、各トレーディングエピソードを評価する。
これらのフェアネススコアは、スケジュールされた {\lambda}-係数を介してエージェント報酬に統合され、不安定でルールベースのフェアネス制約を置き換える適応的なLLM誘導報酬形成ループを形成する。
エージェントはIPPO(Independent Proximal Policy Optimization)を使用してトレーニングされ、適切な結果が得られ、買い手需要の90%以上を達成し、公正な売り手マージンを維持し、継続的にFTBとFBSのスコアが0.80以上に達する。
トレーニングプロセスは、公正なフィードバックが収束を改善し、買い手不足を減らし、売り手間の利益格差を狭めることを示す。
言語ベースの批判により、このフレームワークは自然にスケールし、家庭のプロシューマーによる大規模な配電システムへの拡張はその実用性を示している。
したがって、FairMarket-RLは分散エネルギーシステムにおける自律的取引のためのスケーラブルで株式駆動型のソリューションを提供する。
関連論文リスト
- GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium [52.28048367430481]
マルチエージェントフレームワークは、大規模言語モデル(LLM)の推論能力を高めることができるが、通常は計算コストと収束保証が欠如している。
我々は、不完全情報ゲームとしてマルチLLMコーディネーションをリキャストし、ベイズナッシュ均衡(BNE)を求める。
我々は、分散推論と集中的な最終出力を結合する階層的強化学習パラダイムである、Nash Equilibrium (ECON)による効率的なコーディネーションを導入する。
論文 参考訳(メタデータ) (2025-06-09T23:49:14Z) - FedFACT: A Provable Framework for Controllable Group-Fairness Calibration in Federated Learning [13.575259448363557]
我々はFedFACTという制御可能なグループフェアネス校正フレームワークを提案する。
FedFACTは、大域的および局所的公正性の制約の下でベイズ最適分類器を識別する。
複数のデータセットの実験では、FedFACTは精度とグローバルローカルフェアネスのバランスをとる上で、ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-04T09:39:57Z) - The Other Side of the Coin: Exploring Fairness in Retrieval-Augmented Generation [73.16564415490113]
Retrieval-Augmented Generation (RAG)は、外部の知識ソースから関連文書を取得することにより、Large Language Models (LLM)を強化する。
本稿では,小規模LLMにおいてRAGが導入した公平性問題を軽減するために,FairFTとFairFilterの2つのアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-11T10:17:10Z) - Fairness Aware Reinforcement Learning via Proximal Policy Optimization [7.061167083587786]
本稿では,PPOにおける公正性について,人口統計学的公正性,対実的公正性,条件的統計的公正性から導かれるペナルティ項について紹介する。
我々は,資源収集に焦点を当てた協調的かつ競争的なMASであるAlelopathic Harvestゲームにおいて,我々のアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-06T10:45:55Z) - An Auction-based Marketplace for Model Trading in Federated Learning [54.79736037670377]
フェデレートラーニング(FL)は、局所的な分散データを用いたトレーニングモデルにおいて、その効果がますます認識されている。
FLはモデルのマーケットプレースであり、顧客は買い手と売り手の両方として振る舞う。
本稿では,性能向上に基づく適切な価格設定を実現するため,オークションベースのソリューションを提案する。
論文 参考訳(メタデータ) (2024-02-02T07:25:53Z) - Domain-adapted Learning and Imitation: DRL for Power Arbitrage [1.6874375111244329]
本稿では,この二段階シミュレーションと欧州電力仲裁取引の最適化のための協調的二重エージェント強化学習手法を提案する。
電力トレーダーの取引行動を模倣してドメイン固有の知識を取り入れた2つの新しい実装を導入する。
本研究は,ドメインの知識を一般学習問題に活用することにより,性能を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-01-19T23:36:23Z) - How Robust is Your Fairness? Evaluating and Sustaining Fairness under
Unseen Distribution Shifts [107.72786199113183]
CUMA(CUrvature Matching)と呼ばれる新しいフェアネス学習手法を提案する。
CUMAは、未知の分布シフトを持つ未知の領域に一般化可能な頑健な公正性を達成する。
提案手法を3つの人気フェアネスデータセットで評価する。
論文 参考訳(メタデータ) (2022-07-04T02:37:50Z) - Proportional Fairness in Federated Learning [27.086313029073683]
PropFairは、フェデレート学習において、比例的に公平な解を見つけるための、新しく簡単に実装できるアルゴリズムである。
PropFairはおよそPFソリューションを見つけることができ、すべてのクライアントの平均的なパフォーマンスと最悪の10%のクライアントのバランスがとれることを実証します。
論文 参考訳(メタデータ) (2022-02-03T16:28:04Z) - Fairness for Cooperative Multi-Agent Learning with Equivariant Policies [24.92668968807012]
我々は協調型マルチエージェント学習のレンズを通して公正性を研究する。
マルチエージェント学習のためのグループベースのフェアネス尺度であるチームフェアネスを導入する。
次に、ポリシー最適化にチームフェアネスを取り入れます。
論文 参考訳(メタデータ) (2021-06-10T13:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。